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VORWORT 


Bei der Betrachtung der Verläßlichkeit von Stichprobenergebnissen 
stand in der Stichprobentheorie lange Zeit der Stichprobenfehler 

im Vordergrund. Später wandte man sich auch Methoden zu, durch die 
der Nicht-Stichprobenfehler zu erfassen und quantitativ zu bestim- 
men ist. Neben der Entwicklung von Verfahren mit möglichst geringen 
Stichprobenfehler erscheint es naheliegend, Befragungsmethoden zu 
konzipieren, die auf eine Reduktion des Nicht-Stichprobenfehlers 


hinzielen. 


Vor allem für die Erhebung sensitiver Merkmale wurde in diesem 
Zusammenhang 1965 von WARNER die Randomized-Response-Technik (RRT) 


vorgeschlagen. 


Ziel der vorliegenden statistisch-methodisch orientierten Arbeit 
ist eine umfassende Darstellung der vielen verschiedenen RRT-Ver- 
fahren aufgrund eines allgemeinen RRT-Modells. Hierbei sollen auch 
die bestehenden Lücken beim Vergleich der Modelle und bei der Be- 


handlung multivariater Fragestellungen geschlossen werden. 


Nach einer allgemeinen Einordnung der RRT in Kapitel 1 werden in 
Kapitel 2 die methodischen Grundlagen der RRT entwickelt. In den 
Kapiteln 3 bis 5 werden RRT-Modelle für alternative, mehrklassige 
und quantitative Merkmale dargestellt. Diese Modelle werden anhand 
verschiedener Kriterien untereinander und mit der direkten Befra- 
gung verglichen. Die Grundlagen der Behandlung multivariater Pro- 
bleme, durch welche die Analyse von Abhängigkeiten mehrerer Va- 
riabler mit Hilfe der RRT möglich wird, werden in Kapitel 6 ent- 
wickelt. Den Abschluß der Arbeit (Kapitel 7) bildet eine Bestands- 
aufnahme der in der Literatur dokumentierten empirischen Studien, 


in denen die RRT untersucht oder angewandt wurde. 


Herrn Professor Dr. Walter Piesch, der diese Arbeit angeregt und 
betreut hat, gilt mein herzlicher Dank für seine tatkräftige 
Unterstützung und die großzügige wissenschaftliche Förderung. 
Danken möchte ich auch Frau M. Langer, die die mühsamen Schreib- 


arbeiten mit großer Gewissenhaftigkeit hervorragend erledigt hat. 


Hohenheim, im Oktober 1981 Walter Deffaa 
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l. EINLEITUNG 


1.1 STATISTIK UND DATENSCHUTZ 


Die aktuelle Diskussion über den Datenschutz in der Bundes- 
republik Deutschland und in vielen westlichen Industriestaa- 
ten und die wachsende Relevanz, die diesem Problemkreis zuge- 
messen wird, ist auch für die Statistik von Bedeutung. Betrof- 
fen sind die Möglichkeiten und Modalitäten statistischer 


1) 


Erhebungen sowie die Qualität statistischer Analysen. 


In der Bundesrepublik erfolgte die Auseinandersetzung in die- 
sem Bereich insbesondere bei den Diskussionen zum Gesetzge- 


bungsverfahren des Bundesdatenschutzgesetzes 2) 3) 
4) 5) 


und zur 
Novellierung des Bundesstatistikgesetzes. Hierbei ist 
der zentrale Punkt mit dem Begriff 'Datenschutz' nur unzurei- 


6) 


chend beschrieben. Die infragestehenden Schutzobjekte sind 


vielmehr die Privatsphäre der Bürger und die Vertraulichkeit 


1) Vgl. DALENIUS/KLEVMARKEN (1976); die Beiträge dieses 
Sammelbandes befassen sich schwerpunktmäßig mit der 
Situation in Schweden. 


2) Gesetz zum Schutz vor Mißbrauch personenbezogener Daten 
bei der Datenverarbeitung (Bundesdatenschutzgesetz- 
BDSG) vom 27. Januar 1977. 


3) Vgl. hierzu etwa SIMITIS in SIMITIS et al. (1978, S.47-74). 


4) Gesetz über die Statistik für Bundeszwecke (Bundes- 
statistikgesetz - BStatG) vom 14. März 1980. 


5) Vgl. hierzu KRUPP (1977) und GROHMANN (1980). 
6) Vgl. SIMITIS in SIMITIS et al. (1978, S.53f.). 


1) 


personenbezogener Daten. Ohne die beiden Begriffe ausftihr- 
lich analysieren zu wollen, seien einige Definitionsversuche 
vorgestellt, um so die Bedeutungen - wenn auch vage - einzu- 
grenzen. Stärker auf den statistischen Kontext zugeschnitten 
sind die folgenden Definitionen von 'privacy' als dem Recht 

‘to determine what information about ourselves we will share 


2) 


with others'. bzw. als 'the quality or state of being 


3) 


apart from the company or observation of others'. Weiter 
gefaßt ist dagegen die Umschreibung der Privatsphäre aufgrund 
einer Interpretation der Rechtsprechung des Bundesverfas- 
sungsgerichts: "Gemeint ist damit zunächst (...) der zu den 
Existenzvoraussetzungen einer freiheitlichen und demokrati- 
schen Gesellschaft zählende Anspruch des einzelnen auf einen 
Freiraum, in dem er ungestört und unbeeinflußt von staatlichen 
oder privaten Instanzen über sich selbst und damit auch über 
die spezifischen Bedingungen, unter denen sich seine Entwick- 
lung in seiner gesellschaftlichen Umwelt vollzieht, nachdenken 


4) 


kann". 


1) Im angelsächsischen Sprachbereich entspricht dem die 
Verbindung 'privacy' und "'confidentiality'. 


2) Zitat von Prof.WESTON, Columbia University, zitiert 
nach FELLEGI (1972, S.7). 


3) Webster's Third New International Dictionary, 
zitiert nach DUNCAN (1976, S.55). 


4) SIMITIS in SIMITIS et al. (1978, S.55). 


Die Vertraulichkeit dagegen bezieht sich auf die Anzahl der frem- 
den Personen, denen die personenbezogenen Daten bekannt sind: 

"In contrast, confidentiality is defined as 'known only to a 
limited few: not publicly disseminated' ". 1) 

Das Gebot der Vertraulichkeit von Daten konkretisiert sich bei- 
spielsweise in den gesetzlichen Vorschriften zum Datengeheimnis 

(§ 5 BDSG) und zum statistischen Geheimhaltungsprinzip (§11 BStatG). 
Trotz der hier vorgenommenen Unterscheidung zwischen 'privacy' 

und ‘confidentiality' stehen die beiden Begriffe in engem Zusammen- 
hang; so wird die Privatsphäre durch Gewährleistung der Vertrau- 
lichkeit personenbezogener Daten zumindest weitgehend geschützt, 
während das Gebot der Vertraulichkeit seinerseits erst durch den 


angestrebten Schutz der Privatsphäre einen Sinn erhält. 


Aus der Sicht des Ablaufs einer statistischen Erhebung und Analyse 
kann der Schutz der Privatsphäre und der Vertraulichkeit auf drei 


Ebenen von Bedeutung sein: 


- bei der Datenerfassung 
- bei der Datenaufbewahrung sowie 


- bei der Datenweitergabe und -veröffentlichung. 2) 


Bei den Maßnahmen, die dem Schutz der Privatsphäre und der Si- 
cherung der Vertraulichkeit dienen, sind auf der einen Seite die 
konventionellen Verfahren zu erwähnen, die sich auf Umfang und Art 
von Erhebungen beziehen und Vorschriften zur Behandlung von perso- 


nenbezogenen Daten beinhalten. 


1) DUNCAN (1976, S.55). 
2) Vgl. DALENIUS (1975, S.4). 


Diesen Verfahren stehen neuartige Methoden gegenüber, die die Zu- 
ordnung der Daten zu einer Person irreversibel - bspw. durch spe- 


1) 


zielle Kodierungs- oder Anonymisierungsverfahren - aufheben. 
Die Randomized-Response-Technik (RRT) gehört zu dieser Gruppe von 
Verfahren; sie gewährleistet bereits bei der Datenerhebung den 
Schutz der Privatsphäre und die Vertraulichkeit der Daten. Sie 
kann jedoch auch bei der Datenaufbewahrung und Datenweitergabe 
eingesetzt werden. Ganz allgemein erübrigen sich Vorsichtsmaßnah- 
men auf einer nachfolgenden der oben genannten Ebenen, wenn zuvor 


eines dieser Verfahren eingesetzt wurde. 


Wir werden nun für die amtliche Statistik, die sich weitgehend auf 
die Auskunftspflicht stützt, und für die nicht-amtliche Statistik 
in der Bundesrepublik Deutschland die wichtigsten den Datenschutz 


betreffenden Punkte darstellen. 


Die gesetzlichen Sonderregelungen für den Datenschutz in der amt- 
lichen Statistik in der BRD sind im Bundesstatistikgesetz enthal- 
ten. 2) 
Grundlage fiir fast alle Erhebungen der amtlichen Statistik ist 

die Auskunftspflicht (§ 10 BStatG). Das bedeutet jedoch nicht, daB 
es bei der Datenerfassung möglich ist, über jedes Merkmal eine Aus- 
kunft zu verlangen. Die Bundesgesetze, die die Grundlage für die 
Erhebungen der amtlichen Statistik bilden, müssen den Normen des 
Grundgesetzes genügen, sie müssen verfassungskonform sein. In die- 
sem Zusammenhang ist insbesondere die Vereinbarkeit mit Art.1 und 
Art.2 GG (Schutz der Menschenwürde, Freiheitsrechte) bedeutsam. 

So hat das Bundesverfassungsgericht in einer Entscheidung zur Ver- 
fassungsmäßigkeit des Mikrozensus ausgeführt: 

"Mit der Menschenwürde wäre es nicht zu vereinbaren, wenn der 


Staat das Recht für sich in Anspruch nehmen könnte, den Menschen 


1) Vgl. zu diesen Methoden den Überblick in DALENIUS (1977a). 


2) Vgl. den Überblick über das novellierte Bundesstatistik- 
gesetz in BURGIN (1980). 
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zwangsweise in seiner ganzen Persönlichkeit zu registrieren und 
zu katalogisieren, sei es auch in der Anonymität einer statisti- 
schen Erhebung, und ihn damit wie eine Sache zu behandeln, die 
einer Bestandsaufnahme in jeder Hinsicht zugänglich ist". 1) An- 
gesichts der Notwendigkeit statistischer Erhebungen als Vorbe- 
dingung ftir planvolles staatliches Handeln und der strengen Ge- 
heimhaltungsvorschriften ftir Einzelangaben verletze jedoch nicht 
jede statistische Erhebung über Persönlichkeits- und Lebensdaten 
die menschliche Würde oder berühre das Selbstbestimmungsrecht im 
innersten Lebensbereich. 2) 
Aufgrund dieser Grundsatzentscheidung sind also nur solche Fragen, 
die den zu schützenden innersten (Intim-) Bereich betreffen, in 
Befragungen der amtlichen Statistik mit Auskunftszwang ausge- 


schlossen. 


Auf der zweiten Ebene, bei der Datenaufbewahrung sind sowohl be- 
sondere Sicherungsvorkehrungen als auch Löschungen von Identifi- 
kationsmerkmalen vorgesehen ($ 11 Abs.7 BStatG). So sollen insbe- 
sondere Namen und Adressen dann gelöscht werden, wenn ihre Kennt- 
nis für die Aufgabenerfüllung der amtlichen Statistik nicht mehr 
notwendig ist. Generell sollen Namen und Adressen der Auskunfts- 
pflichtigen von den anderen Daten getrennt aufbewahrt werden; 
hiermit wird auch eine mißbräuchliche Identifizierung der Daten 


erschwert. 


Was die Weitergabe bzw. Veröffentlichung von Daten anbetrifft, 
sind grundsätzlich alle Einzelangaben in der amtlichen Statistik 
geheimzuhalten, es sei denn der Betroffene verzichtet im Einzel- 
fall auf die Geheimhaltung (§ 11 Abs.1 BStatG). Der Verstoß gegen 
die Geheimhaltungsbestimmungen wird strafrechtlich sanktioniert 
(§§ 203 ff. StGB). In $ 11 Abs.3 BStatG sind als Ausnahmeregelung 


diejenigen staatlichen Stellen bezeichnet, an die bei Vorliegen 


1) BUNDESVERFASSUNGSGERICHT (1970, S.6). 
2) Vgl. BUNDESVERFASSUNGSGERICHT (1970, S.7). 


bestimmter sehr restriktiver Voraussetzungen Einzeldaten übermit- 
telt werden können; die Erkenntnisse aus diesen Einzeldaten dür- 
fen jedoch nicht zu Maßnahmen gegen den Betroffenen verwendet wer- 
den. 

Die Veröffentlichung der statistischen Auswertungen ist so zu ge- 
stalten, daß ein Rückschluß auf Einzelfälle unmöglich ist; d.h. 

es werden nur absolute Häufigkeiten, die größer als zwei sind, 
ausgewiesen. Neu aufgenommen wurde in das Bundesstatistikgesetz 
eine Vorschrift, die die anonymisierte Veröffentlichung von Einzel- 
daten zuläßt. Diese müssen "so anonymisiert werden, daß sie Aus- 


kunftpflichtigen oder Betroffenen nicht mehr zuzuordnen sind". 1) 


Diese heftig umstrittene Vorschrift 2), die an die in den USA 

schon lange bestehenden Public-Use-Files anknüpft, soll insbeson- 
dere der Forschung Zugang zu Einzeldaten verschaffen. Solche Indi- 
vidualdaten haben im Rahmen mikroanalytischer Studien stark an Be- 
deutung gewonnen. Die Praxis wird erweisen, durch welche Verfahren 
die Anonymisierungskriterien des $ 11 Abs.5 BStatG sichergestellt 
werden können. Ohne hier auf Einzelheiten eingehen zu können, sei 
angemerkt, daß i.a. durch Weglassen von Namen und Anschriften 

keine ausreichende Anonymisierung erreicht wird, wenn eine bestimm- 
te Kombination von Merkmalsausprägungen nur auf eine Person zu- 
trifft oder durch nicht im fraglichen Datensatz enthaltene Zusatz- 
information eine Re-Identifikation möglich ist. Der Wirtschafts- 
ausschuß des Deutschen Bundestags hat beispielsweise bei den Ge- 
setzesberatungen zum Bundesstatistikgesetz festgestellt, daß er 

für wirtschaftsstatistische Daten keine hinreichende Anonymisie- 
rungsmöglichkeiten sieht. gd 
Neben den hier angesprochenen Anonymisierungsverfahren, die im 
Unterdrücken der Angabe spezieller Merkmalswerte bestehen, sind 
auch Verfahren anwendbar, mittels derer die Einzelangaben sto- 


chastisch - irreversibel - verschlüsselt werden. 4) Der damit 


1) 8 11 Abs.5 BStatG. 

2) Vgl. GROHMANN (1980). | 
3) Vgl. BURGIN (1980, S.508). 
4) Vgl. DALENIUS (1977a). 


einhergehende Informationsverlust läßt sich quantitativ erfassen. 
Die Anonymisierungsverfahren, die auf der Ebene der Datenerfas- 
sung anwendbar sind, können generell auch bei der Datenweiterga- 
be oder -veröffentlichung verwendet werden. Dies gilt auch für 
die RRT, die in der vorliegenden Arbeit als Befragungsmethode ana- 
lysiert wird. Diese Ergebnisse lassen sich aber leicht auf die 
Anonymisierung von Daten und die statistische Auswertung anonymi- 


sierter Daten übertragen. 


Die nicht-amtliche Statistik (öffentliche und nicht-Ööffentliche 
Forschungsinstitute, wissenschaftliche Hochschulen, Markt- und 
Meinungsforschungsinstitute etc.) unterliegt nicht solch umfassen- 
den und detaillierten gesetzlichen Regelungen wie die amtliche Sta- 
tistik. Bis zum Inkrafttreten des Bundesdatenschutzgesetzes im 
Jahr 1977 fehlten derartige gesetzliche Regelungen fast völlig. 


Obgleich sich noch keine allgemeinen Normen durchgesetzt haben zë 


lassen sich jedoch einige weitgehend akzeptierte Grundsätze zur 
Sicherung der Privatsphäre und der Vertraulichkeit personenbezoge- 


ner Daten angeben: 


" 1. The individual must be informed when asked to supply 
personal data for the system whether he is legally 
required, or may refuse, to supply the data requested, 
and also of any specific consequences for him, which are 
known to the organization, of providing or not providing 
such data. 


2. The agency should assure that no use of individually 
identifiable data is made that is not within the stated 
purpose of the system as reasonably understood by the 
individual, unless the informed consent of the individual 
has been explicitly obtained. 


3. The agency should further assure that no data about an 
individual are made available from the system in response 
to a demand for data made by means of compulsory legal 


1) Einen Katalog solcher Normen enthalten bspw. die soge- 
nannten BELLAGIO-PRINZIPIEN (1978) über den Datenschutz 
und den Gebrauch von Öffentlichen Mikrodaten für Zwecke 
der Forschung und Statistik. 


process, unless the individual to whom the data pertain 

(a) has been notified of the demand and (b) has been 

afforded full access of the data before they are made 

available in response to the demand". 1) 
Im Zusammenhang mit dem zweiten Grundsatz sollte der Hinweis der 
Verwendung nur für statistische Zwecke besagen, daß die Indivi- 
dualdaten nur instrumentellen Charakter hinsichtlich der statisti- 
schen Analyse haben. 2) 
Die beiden ersten Grundsätze werden auch zusammenfassend als 
"informed consent" bezeichnet. >? Dem informed consent entspricht 
weitgehend $ 3 BDSG, ?? der eine Verarbeitung personenbezogener 
Daten, die vom Bundesdatenschutzgesetz geschützt werden, nur bei 
Einwilligung des Betroffenen zuläßt; diese Einwilligung ist im 


5) 


Regelfall schriftlich zu erteilen. Dies gilt nicht für schon 


bei der Erhebung nicht identifizierbare Daten, da der Personen- 


6) 


bezug hier nicht gegeben ist. Bezüglich des dritten Grundsat- 
zes ist anzumerken, daß in der nicht-amtlichen Statistik nicht 
ausgeschlossen werden kann, daß etwa Strafverfolgungsbehörden 
versuchen, auf relevante personenbezogene Daten aus Umfragen etc. 
zurückzugreifen, da wirtschafts- und sozialwissenschaftlichen For- 


schern kein Zeugnisverweigerungsrecht zusteht. 


Da die Datenverarbeitung auch die Speicherung der Daten umfaßt, 
gilt die Einwilligung nach $ 3 BDSG auch hierfür. Die gespeicher- 
ten Daten sind durch das Datengeheimnis des $ 5 BDSG geschützt. 
Für die geschäftsmäßige Datenverarbeitung nicht-Sffentlicher Stel- 
len für fremde Zwecke, die personenbezogene Daten zum Zwecke der 
Übermittlung in anonymisierter Form verarbeiten, in unserem Zusam- 
menhang insbesondere die Institute der Markt- und Meinungsfor- 


schung, schreibt § 36 Abs.1 BDSG eine anonymisierte Speicherung 


1) DUNCAN (1976, S.56). 
2) Vgl. AMERICAN STATISTICAL ASSOCIATION (1977, S.72£.). 
3) Vgl. BORUCH (1971a, S.413 £.). 


4) Vgl. auch $ 9 Abs.2 BDSG für Behörden und sonstige 
öffentliche Stellen. 


5) Bez. der Auswirkungen einer schriftlichen Einwilligung 
vgl. BRADBURN et al. (1979, S.107-133). 


6) Vgl. SIMITIS in SIMITIS et al. (1978, S.205). 


vor. Diese Vorschrift ist als Äquivalent zum Verzicht auf Kon- 


trollrechte der Betroffenen zu sehen. 1) 2) 


Nach diesem kurzen - und damit notwendigerweise unvollstdndi- 

gen - Uberblick tiber den Datenschutz in der amtlichen und nicht- 
amtlichen Statistik ist darauf hinzuweisen, daß dem Bedürfnis 

des Individuums nach möglichst weitgehendem Datenschutz ein stei- 
gender gesellschaftlicher Bedarf an verläßlichen statistischen 


Informationen gegenübersteht. 


Die wachsende Komplexität des wirtschaftlichen und sozialen 
Lebens erfordert darüberhinaus immer detailliertere Daten, die 
sich sowohl auf immer kleinere Grundgesamtheiten beziehen als 


3) 


auch auf eine größere Anzahl von Merkmalen. 


Diese Daten bilden in vielen Fällen die Grundlage für Entschei- 
dungen, die ihrerseits wiederum den Einzelnen betreffen. 

Damit ergibt sich ein Konflikt zwischen individuellem Daten- 
schutzbedürfnis und gesellschaftlichem Informationsbedürfnis, 

der auch eine instrumentelle Dimension hat. Das zunehmende Da- 
tenschutzbedürfnis hat seit Beginn der 70iger Jahre negative 
Auswirkungen auf die Antwortbereitschaft der Bürger bei statisti- 
schen Umfragen. Es stellt damit die Verläßlichkeit oder Genauig- 


4) 


keit der erstellten Statistiken in Frage. Eine Studie des 


5) 6) 


Bureau of the Census (USA) zu dieser Problematik, die zur 


1) Vgl. MALLMANN in SIMITIS et al. (1978, S.869). 


2) Für die Datenverarbeitung der Behörden und sonstigen öffent- 
lichen Stellen bzw. nicht Öffentlicher Stellen für eigene 
Zwecke gelten die Auskunfts- und Berichtigungsvorschriften 
der §§ 11,12 bzw. 26,27 BDSG. 


3) Vgl. DALENIUS (1974, S.214). 


4) Vgl. bspw. FRANKEL (1976, S.11), DALENIUS (1978, S.26f.), 
GOLDFIELD et al. (1977, S.219f.). 


5) Vgl. GOLDFIELD et al. (1977). 


6) Vgl. auch den Bericht zu einer Studie über 'Consequences of 
Informed Consent' in BRADBURN et al. (1979, S.107-133). 
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Vorbereitung der 1980er Zensen durchgeführt wurde, bestärkte 
die Vermutung, daß die Antwortraten bei erhöhter zugesicherter 


Vertraulichkeit - wenn auch gering - ansteigen. 1) 


Wir wollen diese wichtige Beziehung zwischen Schutz der Privat- 
sphäre bzw. der Vertraulichkeit statistischer Angaben und der 
Genauigkeit statistischer Ergebnisse genauer untersuchen und 
zuerst eine Einordnung innerhalb des Problemkreises der Genauig- 


keit statistischer Daten vornehmen. 


1.2 DIE GENAUIGKEIT STATISTISCHER ERHEBUNGEN 


Die Genauigkeit einer statistischen Erhebung wird durch die auf- 
tretenden Fehler bestimmt. Hierbei sind die individuellen Fehler 
und der - letztlich interessierende - Gesamtfehler zu unterschei- 
den. Im statistischen Sinn liegt ein individueller Fehler vor, 
wenn der in die Statistik einbezogene Merkmals - Ist - Wert Yi 


2) 


vom Soll-Wert, dem 'wahren' Wert Kr abweicht. Ausgehend von 
einem bestimmten Erhebungssystem, das durch den Gegenstand und 
die Art der Erhebung, die Definition der Massen, Einheiten und 
Merkmale, die Organisation der Feld- und Aufbereitungsarbeit und 
evtl. den Stichprobenplan gekennzeichnet ist, kann man als wahre 


individuelle Werte diejenigen bezeichnen, die bei einer genauen 


1) Vgl. hierzu auch die Studie von SINGER (1978). 
2) Vgl. SCHÄFFER (1977, S.233). 


Einhaltung aller Vorschriften bei der Durchführung des Erhebungs- 


systems gewonnen werden. 2) 


Aufgabe statistischer Erhebungen ist die Ermittlung von Global- 
werten. Wir werden uns hier - wie allgemein üblich - auf Merkmals- 
summen (X,Y) und Durchschnittswerte (x,y) beschränken. Es seien 
die Y-Werte die (Schätz-)Werte für die Merkmalssumme bzw. den 
Durchschnitt, die mittels der durchgeführten Erhebung gewonnen 
werden; diese Werte werden - nicht nur bei Stichprobenerhebungen, 
wie wir im Folgenden sehen werden - als Zufallsvariable betrach- 
tet. 


Die wahren Werte X und x sind die Merkmalssummen und der Durch- 
schnitt der individuellen wahren Werte in der vom Erhebungssystem 


- fehlerfrei - bestimmten Grundgesamtheit. 


Von Interesse ist nun der Gesamtfehler als die Differenz zwischen 
Y-Wert und X-Wert. 


Dieser Gesamtfehler wird bekanntlich durch den mean square error 
(mittlerer quadratischer Fehler) MSE erfaßt. Für das arithmeti- 
sche Mittel ergibt sich 


(1.1) MSE(y) : = E(y-x)? = E(y-Ey)? + (By-x)? = 


= ee 
Var y + Bias(y) 


1) Vgl. STRECKER (1978, S.86) und STRECKER (1980, S.386f.). 
STRECKER unterscheidet darüberhinaus den wahren Wert, der un- 
abhängig vom Erhebungssystem existiere, vom 'wahren'Wert, 
der wie hier vom Erhebungssystem abhängig definiert wird. In 
der Meinungsforschung bspw. existieren i.a. keine wahren Werte, 
sondern nur 'wahre' Werte. Vgl. hierzu auch HANSEN et al. 
(1953b, S.282ff.), KISH (1965, S.514£.) und COCHRAN (1968, 
S.637f.). 


2) Hierbei ist von einer Erhebung auszugehen, bei der die Merk- 
malswerte den statistischen Einheiten eindeutig zugeordnet 
werden können und nicht bspw. - im Erhebungssystem vorgesehen - 
stochastisch verschlüsselt werden. 


Der mean square error als MaBzahl der Genauigkeit (accuracy) läßt 
sich also in zwei additive Bestandteile zerlegen, die Varianz von 
y, als der Maßzahl für die Präzision (precision) der Schätzung, 
und die quadrierte Verzerrung (Bias), als der Differenz zwischen 
dem Erwartungswert des Schätzwertes und dem wahren (zu schätzen- 
den) Wert. 1 Ein optimales Erhebungssystem minimiert - bei gege- 
benen Kosten der Erhebung und sonstigen vorgegebenen Nebenbe- 
dingungen - den mean square error, hat also die Summe der beiden 
Komponenten Varianz und quadriertem Bias möglichst gering zu hal- 
ten. Wie wir noch sehen werden, ist diese Zerlegung des mean 
square error nicht nur für Stichprobenerhebungen sondern auch 


für Totalerhebungen relevant. 


Bei der Betrachtung unterschiedlicher Fehlerkategorien unterschei- 
det man allgemein den Stichprobenfehler (sampling error) vom 
Nichtstichprobenfehler (non sampling error). Der Stichproben- 
fehler kommt dadurch zustande, daß bei einer Stichprobe nicht 

alle Einheiten der Grundgesamtheit erhoben werden; handelt es 

sich um eine Zufallsauswahl, läßt sich der Stichprobenfehlerbe- 
reich theoretisch bestimmen. Alle anderen Fehlermöglichkeiten 

bei der Durchführung einer Erhebung werden unter dem Nicht-Stich- 


probenfehler subsumiert. 


Der Einteilung der Fehler in Stichproben- und Nicht-Stichpro- 
benfehler entspricht die Aufteilung (1.1) des mean square error 


in Varianz und quadrierten Bias i.a. nicht. Beide Fehlerarten 


1) Zu der Unterscheidung von ‘accuracy' und 'precision' sowie 
dem Zusammenhang mit 'validity' und 'reliability' vgl. z.B. 
KISH (1965, S.510) und JESSEN (1978, S.15f.). 


2) Es würde den Rahmen dieser Arbeit sprengen, auf Methoden 
zur Abschätzung der einzelnen Komponenten des Stichproben- 
fehlers einzugehen; vgl. hierzu die Bibliographie von 
DALENIUS (1977b). 


können sowohl Varianz- als auch Bias-Komponenten enthalten. 


Die Fehlerarten lassen sich noch weiter aufgliedern, die Ein- 
zelheiten sind einem Schema von HURWITZ und PRITZKER vom U.S. 


Bureau of the Census in Übersicht 1.1 zu entnehmen. 1) 


Die Nicht-Stichprobenfehler können also danach unterschieden wer- 
den, ob sie durch fehlerhafte Erfassung der Einheiten (coverage 
errors) entstehen oder bei der Datenerhebung bzw. -verarbei- 


tung (content errors) auftreten. 


Im Zusammenhang des Problemkreises Beeinträchtigung der Pri- 
vatsphäre bzw. Vertraulichkeit von Daten sind vor allem die 
Nichtbeantwortung (non-response) und der Angabefehler (respon- 


dent error) bedeutsan. 


Das Fehlen von Merkmalswerten in einer Erhebung aufgrund von 
non-response, in unserem Kontext insbesondere hervorgerufen 
durch die Weigerung, Angaben zu machen, führt zu verzerrten 
Schätzergebnissen, wobei das Ausmaß der Verzerrung von der Höhe 
des Non-Response-Anteils als auch des Unterschieds der Mittel- 
werte in der 'Response-Schicht' und der 'Non-Response-Schicht' 


abhängt. 


Das Ausmaß der Nichtbeantwortung kann beträchtlich sein: 

JESSEN gibt folgende Anhaltspunkte: Bei persönlichem Interview: 
5-50 %, bei telefonischer Befragung: 20-40 %, bei postalischer 
Befragung: 5-95 %, bei unmittelbaren, objektiven Erhebungen 


(Messungen): 0-10 %. 3) 


Bei den Angabefehlern sind - analog der Aufteilung des mean 
square error - die beiden Komponenten Antwortvariabilität und 


Antwortverzerrung zu unterscheiden. 2) Die Antwortvariabili- 


1) Vgl. STRECKER (1978, S.86f., S.113). 
2) Vgl. COCHRAN (1977, S.361). 

3) Vgl. JESSEN (1978, 5.456). 

4) Vgl. FRANKEL (1969). 


Übersi 


cht 1.1: 


Sampling Errors 


Sampling 


Variances 


Sampling 
Biases 


Framework 
biases 


Defective 


estimates 


Fehlerarten - Components of the Error 
nach HURWITZ und PRITZKER (U.S. Bureau of the Census) 


Non-sampling Errors 


Coverage Errors 


Defects in 
Census Coverage 


Omissions 


Duplication 


Erroneously 
included 


Quelle: STRECKER (1978, S.113). 


Non-response 


Not-located 


Not-at-home 


No communic- 
ation 


Refusal 


Lost question- 


naire 


Rejected in 
editing 


Content Errors 


Collection 


Stages 


Respondent 
error 


Interviewer 
error 


Recording 
and copying 
errors 


Processing 


Stages 


Coding 
errors 


Punching 
errors 


Editing 
errors 


Tabulation 
and 
Calculation 
errors 


Pl 


tät bezeichnet ein Phänomen, das auch bei Totalerhebungen auf- 
tritt: Wiederholt man Befragungen, so kann man bei demselben 

Befragten unterschiedliche Antworten auf dieselbe Frage erhal- 
ten; die Befragten sind also antwortvariabel. Diese Antwortva- 
riabilität wird aus der zufällig vorliegenden konkreten Ant- 

wortsituation erklärt, so daß die Antwort bei gegebenem wahren 
Merkmalswert und Merkmalsträger als eine Zufallsvariable auf- 


1) 


zufassen ist. Unter der Antwortverzerrung sind dagegen syste- 
matische Fehler zu subsumieren, die durch Übererfassung (over- 
reporting) oder Untererfassung (underreporting) hervorgerufen 


werden. 


Das AusmaB des Nicht-Stichprobenfehlers, das insbesondere durch 
Antwortverweigerung und Antwortverzerrung bedingt ist, hängt 

selbstverständlich entscheidend von den zu erhebenden Merkmalen 
ab. Eine besondere 'Problemgruppe' sind hierbei die sogenannten 


sensitiven Merkmale. 


1.3 DIE ERHEBUNG SENSITIVER MERKMALE MIT HILFE DER RRT 


Fragen nach sensitiven Merkmalen, kurz sensitive Fragen, zeich- 
nen sich dadurch aus, daß viele Befragte nur sehr widerstrebend 
bereit sind, Auskunft zu geben, daß ihnen diese Fragen unange- 


nehm sind oder daß sie gar in ihren Gefühlen verletzt werden. 


Zu diesen sensitiven Fragen gehören solche nach sozial auffäl- 

ligen, tabuisierten oder kriminellen Verhaltensweisen bzw. Tat- 
beständen und nach Merkmalen, über die im allgemeinen nicht of- 
fen gesprochen wird oder bei denen bestimmte Ausprägungen in 


hohem Maß sozial erwünscht bzw. unerwünscht sind. 


Als Beispiele seien angegeben aus dem ökonomischen Bereich: 


1) Vgl. STENGER (1977, S.391f.). 


; e 1) 
as Vermögen etc.; aus dem Gebiet der Familiensozio- 
logie: Fragen nach Familienverhältnissen, Kindererziehung, 


Mißhandlung von Kindern und Ehepartner, Anwendung von Gewalt; 


3) 4) Geburt unehelicher 


4) 


jegliche Fragen nach Sexualverhalten, 
Kinder und Abtreibung; Fragen nach Alkohol- und Drogenkonsum; 
Fragen nach bestimmten strafbaren Handlungen. 2) 
In diesen Bereichen ist das Datenschutzbedürfnis besonders aus- 
geprägt, die Probleme des Schutzes der Privatsphäre und der 

Vertraulichkeit von Daten bei statistischen Erhebungen deshalb 


von besonderer Bedeutung für die Antwortbereitschaft. 


Der Grad der empfundenen Sensitivität ist selbstverständlich 
bei den einzelnen Merkmalen unterschiedlich und wird von den 
historischen und gesellschaftlichen Bedingungen entscheidend 
geprägt. 

BRADBURN et al. haben in einer Studie für die USA 1.172 Er- 


wachsene zu verschiedenen sensitiven Fragen interviewt und nach 


6) 


dem Interview befragt, ob sie glaubten, daß die jeweiligen Fra- 
gen die meisten Leute "very uneasy", "moderately uneasy", 
"slightly uneasy" oder "not at all uneasy" mache. In der Über- 
sicht 1.2 sind diese Ergebnisse wiedergegeben, wobei zusätzlich 
die Einschätzung der Interviewer und das Ausmaß der Antwortver- 


weigerung angegeben sind. 


Der Grad der Sensitivität wird insbesondere bei Fragen nach dem 
Einkommen, Alkohol- sowie Drogenkonsum und Sexualverhalten als 
sehr hoch empfunden. Hierbei stimmen die Einschätzungen von 
Befragten und Befragern weitgehend überein (Rangkorrelations- 
koeffizient von SPEARMAN P=0.89)..’) Bemerkenswert sind die 

1) Vgl. z.B. EULER (1977, S.577). 

2) Vgl. FELLES (1978). 

3) Vgl. z.B. COCHRAN et al. (1953) und JOHNSON/DELAMATER (1976). 
4) Vgl. z.B. BLAIR et al. (1977). 

5) Vgl. z.B. BELSON (1968). 

6) Vgl. BRADBURN et al. (1979, S.64-84). 

7) Vgl. BRADBURN et al. (1979, S.69). 


Übersicht 1.2: Einschätzung der Sensitivität verschiedener 


Merkmalsbereiche. 
Ergebnisse einer Studie von BRADBURN et al. (1979) 
Relative Häufigkeiten (in %) der Angaben. 


Make Most People Caused Difficulty No Answer 
uneasy in Interview on Actual 


(Respondent's (Interviewer's Question 
Rating Rating) 


Question Topics 


Sports Activities 1 (0) 0.1 
Leisure Time and 


General Leisure a ° One 
Activities 
Social Activities 2 4 0.8 
Occupation 3 3 0.1 
Education 3 2 0.3 
Happiness and 
Well-Being S S = 
Drinking Beer, Wine 10 10 0.1 
or Liquor 
Gambling with Friends 10 3 0.2 
Income 12 9 4.8 
Petting or Kissing 20 19 0.3 
Getting Drunk 29 9 2:3 
Using Stimulants or 31 12 0.1 
Depressants 
Using Marijuana or 
Hashish 42 10 0.4 
Sexual Intercourse 42 27 6.0 
Masturbation 56 29 Ee 
Quelle: BRADBURN et al. (1979, S.68). 


relativ geringen Antwortverweigerungsraten, die jedoch erwartungs- 
gemäß mit steigender Sensitivität im Durchschnitt auch zunehmen. 
Aus einer eingehenden Analyse der Studie ergibt sich, daß die Be- 
fragten bei zunehmender Sensitivität eher zunehmend zu under- 


1) 


reporting - also Angabefehlern - neigen. 


Bei Fragen nach sensitiven Merkmalen sind also die Probleme der 
Antwortverweigerung bzw. der Falschbeantwortung besonder groß. Um 
in diesen Fällen diese Komponenten des Nicht-Stichprobenfehlers 
zu reduzieren, wird eine Vielzahl spezieller Methoden vorgeschla- 


gen und in der Praxis angewandt. 
1) Vgl. BRADBURN et al. (1979, S.71-75). 
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Wir wollen in der hier gebotenen Kürze nur auf solche Verfahren 
eingehen, die die Anlage und Organisation einer Befragung und 

die Gestaltung des Fragebogens betreffen, und Probleme des Inter- 
viewer-Einflusses oder der Motivation der Befragten nicht expli- 
zit behandeln. 1 
Bei den Verfahren, die eine Verringerung des Angabefehlers und 
der Nichtbeantwortung bezwecken, lassen sich zwei Gruppen unter- 
scheiden. Bei den direkten Verfahren werden - bei bedeutenden 
Differenzen der Modalitäten - die Fragen direkt nach dem zu er- 
hebenden Merkmal gestellt; aus der gegebenen Antwort läßt sich - 
bei wahrheitsgemäßer Beantwortung - eindeutig auf den Merkmals- 
wert des Befragten zurückschließen. 

Diesen Verfahren stehen die indirekten Verfahren gegenüber, bei 
denen die Antwortwerte irreversibel verschlüsselte Beobachtungs- 
werte darstellen; die individuellen Merkmalswerte lassen sich 


durch die Verschlüsselung nicht mit Sicherheit rekonstruieren. 


Bei den direkten Methoden kamen der Fragebogengestaltung und der 


2) ein besonders bedeutender Einfluß auf die 


Fragenformulierung 
Reduktion des Angabefehlers zu. Aufgrund der Analyse empirischer 
Studien und Erfahrungen zieht SUDMAN (1980) folgendes Resumé für 
die Fragebogengestaltung und die Fragenformulierung bei sensiti- 


3) 


ven Fragen: 


- "Open questions are better than closed questions for 
obtaining information on frequencies of socially undesirab- 
le behavior". 


- "Long questions are better than short questions for 
obtaining information on frequencies of socially undesirab- 
le behavior". 


1) Vgl. hierzu SUDMAN/BRADBURN (1974, S.93-139). 


2) Vgl. die von BARTON (1958) angegebenen Möglichkeiten für 
die Frage, ob der Befragte seine Ehefrau getötet habe. 


3) SUDMAN (1980, S.270 f£.). 


- "The use of familiar words may increase the reporting of 
frequencies of socially undesirable behavior". 


- “Consider deliberate loading of the question to both 
reduce overstatements of socially desirable behavior 
and understatements of socially undesirable behavior". 


- "For socially undesirable behavior it is better to start 
with a question that asks if the respondent has ever 
engaged in the behavior before asking about current 
behavior. For socially desirable behavior, ask about 
last time rather than usual behavior". 


- "If possible, embed the threatening topic into a list of 
more threatening topics to reduce the perceived importance 
of the topic to the respondents". 


- "Avoid the use of reliability checks on the same question- 
naire since this will annoy respondent". 


- "Ask questions at the end of the interview to determine 
how threatening the topics were perceived to be by the 
respondent”. 


Neben diesen Möglichkeiten der Fragebogengestaltung können Ver- 
fahren angewandt werden, die (mehr oder minder weitgehend) ano- 
nym durchgeführt werden; z.B. anonyme selbst auszufüllende Fra- 
gebögen, die mit der Post verschickt werden, oder telefonische 


1) 


Befragungen. Bei diesen anonymen Befragungen sind jedoch oft 


nachträgliche Identifizierungen aufgrund der Auswahlunterlagen 
oder aufgrund von Zusatzinformationen möglich. Dies gilt jedoch 
nur eingeschränkt für verschiedene Verfahren, die mit Urnen ar- 
beiten; z.B. das "Secret Ballot'-Verfahren, bei dem die Befragten 
einen verschlossenen Umschlag mit der Angabe ihres Merkmalswerts 


in eine Urne werfen. 2) 3) 


1) Eine interessante Variante ist die von CARIFIO/BIRON (1978) 
entwickelte Context-Determined, Rule-Generated, Pseudonym 
(CDRGP-) Technique, die mit einem aus dem Namen des Befrag- 
ten abgeleiteten irreversiblen Identifizierungscode arbeitet 
und damit im Gegensatz zu anderen anonymen Verfahren Ver- 
laufsanalysen zuläßt. 


2) Vgl. FRANKEL/FRANKEL (1977, S.291). 


3) Vgl. auch ein ähnliches Verfahren, das von BELSON (1968, 
8.172) angewandt wurde. 
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Diesen direkten Verfahren, die schon seit Jahrzehnten bei Befra- 
gungen nach sensitiven Merkmalen angewandt werden, stehen die - 
in den letzten fünfzehn Jahren entwickelten - indirekten Ver- 
fahren gegenüber, bei denen die individuellen Merkmalswerte irre- 


versibel verschlüsselt werden. 


Unter diesen Verfahren dominiert die sogenannte Randomized- 
Response-Technik (RRT), die auch als einzige in der Praxis häu- 


figer angewandt und untersucht wurde. une) 


Die RRT wurde von WARNER (1965) mit seinem Aufsatz "Randomized 
Response: A Survey Technique for Eliminating Evasive Answer Bias" 
begründet. Dieses WARNER-Modell, das in der Folgezeit - wie den 
nächsten Kapiteln dieser Arbeit zu entnehmen ist - entscheidend 
1) Die RRT wird in mehreren neueren Statistikbüchern und 
Monographien zur Stichprobentheorie behandelt; vgl. COCHRAN 
(1977, S.392-395, 398f.), JESSEN (1978, S.435-438, 446f.), 


JOHNSON/KOTZ (1977, S.290 ff£.), MENDENHALL et al. (1971, 
S.210-212), MOSER/KALTON (1971, S.328-331), NOETHER (1976, 


S.70-72,75), ORKIN/DROGIN (1975, S.325-330), RAJ (1968, S.255f.), 


WILLIAMS (1978, S.72-74). Reviews zur RRT enthalten ALEXANDER 
(1978), CAMPBELL/JOINER (1973), DEVORE (1979), HORVITZ et al. 
(1976), KIM/FLUECK (1976), MARBACH (1975), POHL/POHL (1975), 
VERDOOREN (1976). Die relevante Literatur zur RRT bis 1977 
ist fast vollständig in der Bibliographie von DANIEL (1979) 
aufgeführt. 


2) Einen ähnlichen Ansatzpunkt wie die RRT hat die Methode der 
'Combined Questions', die von SWENSSON entwickelt wurde - 
vgl. SWENSSON (1974, 1975, 1976a, 1976c) -, die Block Total 
Response Procedure - vgl. RAGHAVARAO/FEDERER (1979) und 
SMITH et al. (1974) - und die sogenannten Value Indifferent 
Observation Schemes - vgl. THEDEEN (1975) -. Die Grundidee 
aller dieser Methoden ist, daß der Befragte seine Merkmals- 
werte bez. mehrerer Fragen nach bestimmten Regeln zu einer 
Antwort zusammenfaßt, aus der sich die einzelnen Merkmals- 
werte i.a. nicht zurückschließen lassen. Aufgrund mehrerer 
Stichproben mit unterschiedlichen Anordnungen der Fragen 
lassen sich die Parameter der Grundgesamtheit schätzen. Die- 
se Methoden haben jedoch in der Praxis bisher keine Bedeu- 
tung erlangt. 
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erweitert und modifiziert wurde, sei hier kurz exemplarisch dar- 
gestellt: 


Um festzustellen, wie groß bspw. der Anteil (1) der Personen 
einer bestimmten Grundgesamtheit ist, die bereits einmal die 
Droge Marihuana konsumiert haben, werden die für die Befragung 


Ausgewählten folgender Befragungsprozedur unterworfen: 


Eine Urne mit 70 roten und 30 weißen Kugeln wird geschüttelt, 
erscheint in einem Ausgang der Urne, der für den Interviewer 
nicht zu sehen ist, eine rote Kugel, so hat der Befragte die 
Frage "Haben Sie schon einmal in Ihrem Leben Marihuana genom- 
men?" zu beantworten. Bei einer weißen Kugel dagegen die Frage 
"Haben Sie in Ihrem Leben noch nie Marihuana genommen?" Der Be- 
fragte antwortet mit "Ja" oder "Nein"; aus seiner Antwort läßt 
sich nicht schließen, ob er Marihuana konsumiert hat oder nicht. 
Damit ist die Vertraulichkeit seiner Angabe gewährleistet, dem 
Befragten wird so eine (wahrheitsgemäße) Antwort erleichtert 
und damit möglicherweise eine Ursache für Antwortverweigerung 
oder Angabefehler behoben. Obgleich die individuellen Merkmals- 
werte unbekannt sind, läßt sich der Anteil 1 aus dem Anteil der 
Ja-Antworten (A) in der Stichprobe und der Zusammensetzung der 
verwendeten Randomisierungsurne (Anteil der roten Kugeln 

P = 0.7) schätzen. 


Für die Wahrscheinlichkeit A einer Ja-Antwort gilt nämlich: 
A = Pr + (1-P) (1-7) 

in unserem Beispiel also: 
A = 0.47 + 0.3 


Hieraus erhalten wir eine erwartungstreue Schätzung 7 für den 


Anteil der Marihuana-Konsumenten aus der Stichprobe: 


ER 
N 
Mel 

) 
— 


bzw. im Beispiel 
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>») 


= 0.3 
0.4 


Die Varianz des Schätzers läßt sich ebenfalls erwartungstreu 


aus der Stichprobe schätzen: 


À (1-2) 
(n-1) (2P-1) ? 


3) 


Var 


in unserem Beispiel: 


Var mų = — 
Die Anwendung der RRT ist nicht nur auf alternative Merkmale be- 
schränkt, sondern kann auch bei mehrklassigen nominal-skalierten 
und bei quantitativen Merkmalen angewandt werden. Wie im 6.Kapi- 
tel der Arbeit gezeigt wird, lassen sich auch multivariate 
Fragestellungen anhand von RRT-Daten analysieren. 


Die RRT ermöglicht also allgemein die Schätzung von Parametern 
einer Grundgesamtheit aus Antworten, die sich durch eine irre- 
versible stochastische Verschlüsselung der individuellen Merk- 
malswerte ergeben. Durch eine künstlich generierte Antwortva-- 
riabilität, die die Vertraulichkeit der Daten sichert, soll da- 
mit die bei sensitiven Merkmalen besonders bedeutende Antwort- 


verzerrung verringert werden. 


Vor der ausführlichen Darstellung der einzelnen RRT-Modelle und 
vor einem Vergleich der Methoden stellen wir die allgemeinen 
methodischen Grundlagen der RRT dar, die dann in den Einzelfäl- 


len spezialisiert anzuwenden sind. 
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2, STATISTISCHE INFERENZ IM ALLGE- 
MEINEN RRT-MODELL 


2.1 DAS ALLGEMEINE RRT-MODELL 


Im Folgenden soll ein allgemeines Modell der Randomized-Response- 
Technik entwickelt werden, das alle möglichen Modellvarianten 


und Merkmalsarten umfaßt und den umfassenden Rahmen für die Be- 
1) 


handlung von Schätz- und Testproblemen bietet . Nach einer 
allgemeinen maßtheoretischen Formulierung wird das Mode!l für 
diskrete und stetige Zufallsvariable konkretisiert. 


Das allgemeine RRT-Modell, das in Abbildung 2.1 dargestellt ist, 
besteht aus vier Bestandteilen: 2) 


- der Untersuchungs-/Erhebungsvariablen X 
X: (Q,a,P) > (0, ep, mit der (unbekannten) Verteilung Gei 


- der Randomisierungs-/Antwortsteuerungsvariablen Z 
23 DI ,a',P')> Den) mit der (bekannten) Verteilung Poe die 


von X stochastisch unabhängig ist und die Randomisierung bzw. 


3) 


Antwortsteuerung widerspiegelt, 


- der Antwort-/Beobachtungsvariablen Y mit dem Bildraum Bag 
und der Verteilung Par die die Antwort des Befragten dar- 
stellt, und einer 


1) Die von WARNER (1971) und ANDERSON (1975b, 1977) dargestell- 
ten allgemeinen RRT-Modelle sind Spezialfälle des hier vorge- 
schlagenen Modells. 


2) Die verwendeten Bezeichnungen sind in der maßtheoretisch fun- 
dierten Wahrscheinlichkeitsrechnung üblich; vgl. etwa 
HINDERER (1975, S.244). 


3) SUZUKI et al. (1977) und TAKAHASI/SAKASEGAWA (1977) schlagen 
eine Version des WARNER-Modells vor, in der die Verteilung 
der Randomisierungsvariablen unbekannt ist und von X abhängt. 
Um in diesem Fall zu einer Schätzfunktion für m zu gelangen, 
müssen sie aber zusätzliche, nicht überprüfbare, Annahmen 
bez. des Verhaltens der Befragten machen. Zu den Schwierig- 
keiten der Schätzung in diesem Modell vgl. SINGH (1978). 
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- (meßbaren) Abbildung T 


T: N, x Ve a , die die Verknüpfung der Untersuchungs- 
variablen mit der Antwortvariablen wiedergibt. Es entspricht 
der Logik der RRT, daß die Abbildung T nicht eineindeutig 


sein sollte. 


Abb. 2.1: Das allgemeine RRT -Modell 


Untersuchungs- / 


Erhebungsvariable Anwort- / 
Beo bachtungsvariable 


RA 


(meßbare) 
Abbildung 


(Ay 0, Py) 


(n,.d, P,) 


Randomisierungs- / 
Antwortsteuerungsvariable 


Die einzelnen Realisierungen der Untersuchungsvariablen X und der 
Randomisierungsvariablen Z sind nicht beobachtbar, lediglich die 
Werte der Antwortvariablen Y. Aufgrund des gewählten E=RT-Modells 
und der speziellen Parameterkonstellation sind jedoch die Vertei- 
lung von Z und die Abbildung T bekannt. Die Verteilung der Unter- 
suchungsvariablen X dagegen ist unbekannt; aus den Stichproben- 
daten will man Informationen über sie gewinnen. 

Die gemeinsame Verteilung von X und Z ergibt sich aufgrund der Un- 
abhängigkeit als Produktmaß der beiden (Rand-) Verteilungen: 


(2.1) Pin) = Po > 


Die Verteilung von Y ist dann das BildmaB von Pix et bei T: 
r 


3 ® . 
Tip 8 P3) 


(2.2) Py = T(P xz)? 


= 25. = 


Abb. 2.2: Untersuchungs -, Randomisierungs - und 


Antwortvariable im WARNER - Modell 


Abbildung T(x,z)=y 


(i-p)(1-) pt-M 


In der Abbildung 2.2 ist dieser Zusammenhang exemplarisch für das 
WARNER-Modell dargestellt. In praktischen Anwendungen liegen aus- 
schließlich sogenannte diskrete bzw. stetige Zufallsvariablen X, 


Y, Z vor, so daß sich der allgemeine Zusammenhang (2.2) für deren 


Übersicht 2.1: 


Dichte- bzw. 


Untersuchungs- 
variable X 


Randomisierungs- 
variable 


Antwort- 


variable Y 


diskret 
Wahrscheinlichkeits- 
funktion 


Py ty) 


stetig 


Dichtefunktion 
f. (y) 
y y 


Modellkonstellationen im allgemeinen RRT-Modell: 
Wahrscheinlichkeitsfunktion der Antwortvariablen 


diskret 
Wahrscheinlichkeitsfunktion Py 


stetig 


Dichtefkt. f; 


diskret 
Wkt.-Fkt. P, 
(2.3) _ (2.4) 
Y py (x) +p, (2) Lip, (0) f£, (z)dz] 
T(x,z)=y XER B 
mit B,:= {z|T(x,z)=y} 


vgl. z.B. 


3 und 4) 
(vgl. z.B. 5.3) 


(2.7) 


unmöglich Yp,, (x) 9, (y) mit 
XE Q 
x 
= P(Y=y|X=x) 


g,, (y) 


(vgl. z.B. 5.2) 


stetig 
E 
x 


Dichtefunktion 


stetig 


diskret 
wkt.-Fkt. P, Dichtefkt. f, 


12.5) (2.6) 
f (x) £_(z)dxadz 


l (p, (2) [E (dad 
zen, Bz T(x,z)=y 
mit Boi = {x|T(x,z)=y} 

(vgl. z.B. 5.3) 


(vgl. z.B. 5.3) 
(2.8) (2.9) 
l p,(2)g, (y) je (x) £_(z) dxdz 
zen x E 
g T(x,z)=y 
mit g,(y) = £(Y=y|2=z)|(vgl. z.B. 5.2) 


(vgl. z.B. 5.1,5.2) 
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Dichten/Wahrscheinlichkeitsfunktionen konkretisieren läßt. 

Im allgemeinen Modell können somit sieben mögliche Fälle mit diskre- 
ten bzw. stetigen Zufallsvariablen X, Y, 2 unterschieden werden Gg 
In der Übersicht 2.1 ist in den Formeln (2.3) bis (2.9) angegeben, 
wie sich die Dichte bzw. Wahrscheinlichkeitsfunktion der Antwort- 
variablen aus den entsprechenden Funktionen der Untersuchungs- und 
Randomisierungsvariablen ermitteln läßt; hierbei wird für den Wert 
der Dichte-/Wahrscheinlichkeitsfunktion der Antwortvariablen an 

der Stelle y die gemeinsame Verteilung von X und Z über alle Werte- 
paare (x,z) summiert (integriert), für die die Abbildung T den Wert 
y ergibt. 

Mit Hilfe dieses Zusammenhangs der Dichten/Wahrscheinlichkeits- 
funktionen von X, Y und Z lassen sich - bei parametrischen Vertei- 
lungen - die Parameter der Verteilung von Y mit denen von X und 2 

in Beziehungen bringen. Dies stellt die Grundlage für die Parameter- 
schätzung dar. 


2.2 SCHÄTZEN IM ALLGEMEINEN RRT-MODELL 2) 


Die 'klassischen' Methoden zur Gewinnung von Schätzfunktionen - 

die Momenten-Methode, die Maximum-Likelihood-Methode und das Kleinst- 
Quadrate-Prinzip ze lassen sich,teils modifiziert, auch im allge- 
meinen RRT-Modell anwenden. Die Verteilung der Antwortvariable X - 

n unabhängige Kopien bilden die Stichprobe Yır e Za - hängt 

über (2.2) von der Verteilung der Untersuchungsvariablen X, Pp (-8)ab, 
wobei 6 einen Parameter(vektor) bezeichnet, der aus den Stichpro- 
bendaten zu schätzen ist. 

1) Der Fall X, Z diskret und Y stetig scheidet aus, da nach dem 


Satz von Radon-Nikodym das Bildmaß eines diskreten Wahrschein- 
lichkeitsmaßes keine (Lebesgue-)Dichte haben kann. 


2) In dieser Arbeit stehen - wie in der Stichprobentheorie üblich - 
Schätzprobleme im Vordergrund. Eine Ausnahme bildet Kap.6.3. 
Testprobleme behandeln im Zusammenhang mit der RRT FERRARI 
(1978) und LEVY (1976a, 1976b, 1977a, 1977b, 1978). Zur Anwen- 
dung Bayesscher Methoden in der RRT vgl. SPURRIER/PADGETT (1980) 
und WINKLER/FRANKLIN (1979). 


3) Diese Schätzmethoden werden in Standardlehrbüchern der mathema- 
tischen Statistik ausführlich dargestellt, vgl. etwa BICKEL/ 
DOKSUM (1977, S.89-115). 
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2.2.1 Die Momentenmethode 


Die Momentenmethode kann im Falle einer direkten Befragung ange- 


wandt werden, wenn sich 9 darstellen läßt als 


(2.10) 8 


ais, (8) ,...,m_(0)) (re IN) ; 


wobei 


(2.11) m. (9) Ex} 

das j-te Moment von X (um den Nullpunkt) ist. 
Das j-te Stichprobenmoment m. ist 

n 
I x] ; 
Sech * 


(2.12) Mi = 1 
j n 

hierbei ist (Xr-erı X) eine Stichprobe unabhängiger Kopien von X. 

Der Momentenmethodenschätzer bei direkter Befragung Ek wird dann 


gebildet als 


ad a aX a 
(2.13) 9 Z = T (iesse) : = glg eee m.) 1) HM 
Wendet man die RRT an, so sind die Realisationen von X nicht beo- 
bachtbar. Läßt sich jedoch zwischen den Momenten von X und den Mo- 
menten von Y ein (vektorieller) Zusammenhang $ derart finden, daß 


gilt: 


(2.14) [m (8) +... ‚m. (8) ] = pE (9) ,... emie (6)] (Gre N) , 


so kann aufgrund der Stichprobenmomente Mi. ein RRT-Schätzer 6" für 
8 nach der Momentenmethode ermittelt werden, 


(2.15) Ef TE Haase ee gletn?,....m,.)] ; 


indem man den Zusammenhang (2.14) in (2.13) einsetzt. 
Aufgrund der Konsistenz der Stichprobenmomente als Schätzfunktionen 


für die Momente der Zufallsvariablen sind die Momentenmethoden- 


r 


schätzer ga bzw. 6 (Formel (2.13) bzw. (2.15)) konsistent, wenn g 


1) Vgl. BICKEL/DOKSUM (1977, S.92). 
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bzw. gl[o] stetig ist In. 


2.2.2 Die Maximum-Likelihood-Methode 


Ausgehend von den Formeln (2.3) bis (2.9) fiir die Dichte (Wahr- 
scheinlichkeitsfunktion) von Y sieht man, daB auch diese nur von 
dem unbekannten Parameter ® der Verteilung von X abhängt, da die 
Verteilung von Z und die Abbildung T bekannt sind: 


f (°;:909) - 
Y 
Die logarithmierte Likelihood-Funktion L( 87y¥,0--++¥)) ist dann im 


Fall einer Stichprobe mit unabhängigen, identisch verteilten Stich- 


probenzügen 


(2.16) Lëns eY) = l log GE : 
l 


Der Maximum-Likelihood-Schätzer Ô ML wird als das Maximum von (2.16) - 
bei gegebenen Stichprobendaten Yyır-- Ya " wie üblich bestimmt, wo- 
bei evtl. Restriktionen bez. 8 zu beachten sind. 

In vielen Fällen gehören die Dichten fy einer verted tungefamsite 

an, für deren charakteristische Parameter A ML-Schätzer AML be- 


kannt sind. Besteht nun zwischen A und Seine eineindeutige Bezie- 


hung d, 

(2.17) A = wp(6) ’ 

so gilt nach dem Invarianzprinzip der Maximum-Likelihood-Methode a 
x _ 71,4 

(2.18) OML = d Ayr) r 


so daß sich in diesen Fällen die ML-Schätzer besonders einfach er- 
mitteln lassen. Hierbei ist allerdings zu beachten, daß Restriktio- 
nen bezüglich 8 nicht verletzt werden. Bekanntlich sind ML-Schät- 
zer unter recht allgemeinen Regularitätsbedingungen konsistent 


i . 3 
sowie asymptotisch erwartungstreu, effizient und normalverteilt. ) 


1) Vgl. BICKEL/DOKSUM (1977, S.133). 
2) Vgl. MOOD et al. (1974, S.284). 
3) Vgl. NORDEN (1972). 


2.2.3 Das Kleinst-Quadrate-Prinzip 


WARNER (1971) entwickelte ein allgemeines lineares Modell der 
RRT, in dem zur Schätzung der Parameter unterschiedliche Varian- 
ten der Methode der kleinsten Quadrate verwendet werden II. Im 
hier vorgestellten allgemeinen Modell der RRT lassen sich näm- 
lich in vielen Fällen die Elemente von di und N, als Vektoren 


bzw. Matrizen so wählen, daß 


(2.19 Y=TX Z2 =Z% Q= R” art 2G, = R” 
ist. 


Ist der zu schätzende Parametervektor D der Erwartungswert von X, 
(2.20) 8 = EX , 

bietet sich mit 

(2.21) EY = EZ EX =P @ (mit P: = EZ) 


folgendes lineares Modell an: 


ty. = 
(2.22) x 
EU, = 0 š i = 1,...;Nn 


a) 
| 
+ 


Die Varianz-/Kovarianzmatrix der Störglieder ist von der speziel- 
len Modellsituation abhängig. 

Bei der Schätzung von 8 ist evtl. zu berücksichtigen, daß die Re- 
gressorenmatrix nicht den vollen Rang hat oder daß Nebenbedingun- 
gen bez. 9 zu beachten sind. Aufgrund der Gestalt der Varianz- 
Kovarianzmatrix der Störglieder ist entweder die klassische oder 
die verallgemeinerte Methode der kleinsten Quadrate anzuwenden, 
evtl. unter Berücksichtigung der o.a. Besonderheiten. 

In vielen Fällen stimmen die so ermittelten Schätzfunktionen 6 


KQ 
mit auf andere Weise abgeleiteten überein; diese Ableitung hat 


1) Vgl. WARNER (1971). 


- 31 - 


jedoch den Vorteil, daß aufgrund der Theoreme von GAUSS-MARKOFF- 
(AITKEN) (auch nicht asymptotische) Eigenschaften der Schätzfunktio- 


nen angegeben werden können. 
2.3 STICHPROBENTHEORETISCHE BETRACHTUNG 


2.3.1 Modifikation des allgemeinen 
RRT-Modells 


Die in 2.2 dargestellten Methoden gehen von der Annahme aus, die 
einzelnen Stichprobenzüge Yue i = 1,...,n (n:Stichprobenumfang), 
seien unabhängige und identisch verteilte Zufallsvariable mit der 
Verteilung re Diese Annahme trifft jedoch für fast alle in 
der Praxis angewandten Stichprobenverfahren nicht zu. Somit er- 
scheint eine Einordnung der RRT-Modelle in die Stichprobentheorie 
angebracht, bei der darüber hinaus möglichst eine analytische 
Trennung der beiden stochastischen Elemente, Stichprobenauswahl 
und Randomisierung, zu erreichen ist, um so leichter auf die Er- 
gebnisse der Stichprobentheorie zurückgreifen zu können. 

Hierzu ist eine Modifikation des Modells aus 2.1 vorzunehmen. An 
die Stelle der Zufallsvariablen X (die die identisch verteilten 
Züge repräsentiert) tritt eine (verallgemeinerte) Zufallsvariab- 
le S, Stichprobenauswahl, deren Realisationen n-elementige Mengen 
von Merkmalsträgern der Grundgesamtheit sind Gë Die Verteilung 
von S ergibt sich aus dem jeweiligen Stichprobenplan. Die Abbil- 
2.3 faßt diese Zusammenhänge mit dem in 2.1 Ausgeführten zusammen. 


Die Randomisierungsvariable kann - ebenso wie die Untersuchungs- 
variable - eine mehrdimensionale Zufallsvariable sein. Wird die 
Randomisierungsvariable durch k-fache Kopie einer Zufallsvariablen 
generiert und bei jedem der k Versuche eine Antwort beobachtet, 
spricht man von einem sogenannten Multiple-Trial-Modell. Es ist 
naheliegend, daß zu jedem RRT-Modell Multiple-Trial-Versionen 


1) Vgl. etwa CASSEL et al. (1977, S.3-12). 
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konstruiert werden können. 
Eine Schätzfunktion 6 rue) hängt somit von der Stichpro- 
benauswahl S und den als unabhängig angenommenen Kopien der Rando- 


misierungsvariablen Z ab. 


Abb. 2.3: Das modifizierte allgemeine RRT-Modell- 


stichprobentheoretische Betrachtung 


Grundgesamtheit Zufalls- Stichprobe 
(Einheiten ) variable 
i=1,...,N Stichproben- 
auswahl S 


x; (Merkmalswerte) 


Antwort- 
T variable 


Parameter: e 


Randomisierungs- 
variable 


Z.; i=1 n 


2.3.2 Schätzen im allgemeinen modifi- 
zierten RRT-Modell 


Für die Untersuchung der Eigenschaften eines RRT-Schätzers ôF ist 
eine bedingte Betrachtung sinnvoll, um die Einflüsse der Stichpro- 
benauswahl und der Randomisierung voneinander zu trennen. 
Bezeichnet man die Erwartungswert- bzw. Varianzbildung bez. der 
Stichprobenauswahl mit Index 1, bez. der Randomisierung mit In- 
dex 2, so ergeben sich folgende Formeln für den Erwartungswert 

und die Varianz von 6" : 


(2.23) Eo" 


r 
E} E, (6 IS) 


Ar ar 
Var, E, (6 |S) +E Var, (8 |S) 


(2.24) Var SCH 1 
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Von besonderem Interesse ist die Varianzzerlegung (2.24). Der 
erste Bestandteil - die "externe Varianz' - ist auf die Stich- 
probenauswahl zurückzuführen, wir bezeichnen ihn deshalb als 
Stichprobenvarianz. Der zweite Bestandteil - die ‘interne' 
Varianz'-ist auf die Randomisierung zurückzuführen, die zu einer 
Streuung der Antwortvariablen bei einer festen Stichprobenein- 


heit führt; diese Varianzkomponente wird deshalb als Antwort- 


: : . 1 
varianz oder Zusatzvarianz bezeichnet d 


In der Stichprobentheorie steht die Schätzung von Merkmalssum- 
men und Mittelwerten und die Ermittlung der Varianzen der Schät- 
zer i.a. im Vordergrund er. 


Für die gebräuchlichsten - ungebundenen - Stichprobenverfahren 


3) 


lassen sich die Schätzer für die Merkmalssumme X (und damit 


auch für Durchschnitte) als homogene - lineare Schätzer darstel- 


len SE: 


1) ERIKSSON (1976a, S.4), verwendet - in einem etwas spezielle- 
ren Fall - die Bezeichnungen ‘sampling variance' und 
‘response variance'. 


2) Betrachtungen der Optimalität von Schätzern bei der RRT 
werden hier nicht vorgenommen, vielmehr wird auf die übli- 
chen Stichprobenverfahren zurückgegriffen. Vgl. zur optima- 
len Schätzung im WARNER-Modell GODAMBE (1980), dessen An- 
satz jedoch von geringer praktischer Relevanz zu sein 
scheint. Vgl. auch LOYNES (1:76a, 1976b) und BELLHOUSE (1980). 


3) Wir verwenden hier die in der Stichprobenliteratur übliche 
Bezeichnung; Verwechslungen mit - den ansonsten in Großbuch- 
staben geschriebenen - Zufallsvariablen sind im Kontext 
kaum möglich. 


4) Die folgenden Betrachtungen gelten - unmodifiziert - nur 
dann, wenn eine Einheit höchstens einmal in die Stichprobe 
gelangen kann. 
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PA N 
(2.25) xt = j N.S, mit den Zufallsvariablen 
i=1 
Wis ie S 
(2.26) Wi = L=1 pave oN 
O i¢s 


Dieser Schätzer wird hier als direkter Schätzer bezeichnet. Die 
Grundgesamtheit umfasse N Elemente mit den Merkmalswerten Ki 
i=1,...,N; gelangt eine Einheit i in die Stichprobe, so wird ihr 
Merkmalswert mit Wig gewichtet, wobei das Gewicht sowohl von der 
Einheit als at den anderen in die Stichprobe gelangten Einheiten 


abhängen kann. 


Bei der Ermittlung eines RRT-Schätzers kann man die Formel (2.25) 
für den direkten Schätzer auf zwei Arten verwenden. Nach dem An- 
satz von ERIKSSON (1976) ermittelt man aufgrund der Antwort Yi 
einen Schätzwert Xi für x, (i €s) und ersetzt die Xi in (2.25) 
durch wl Auf dem anderen Weg ermittelt man aufgrund von (2.25) 
mit den Antwortwerten y (ie s) einen Schätzer für den Erwartungs- 
wert von Y und wendet dann die in 2.2.1 erläuterte Momentenme- 
thode an. Voraussetzung des ERIKSSON-Ansatzes ist, daß man - wie 
in den meisten Fällen - Schätzfunktionen x,(x,) für x, finden 
kann, die bezüglich der Randomisierungsvariablen erwartungstreu 


sind: 
(2.27) EX. = x, ; its j 


Der RRT-Schätzer Se ergibt sich aus (2.25) durch Ersetzen von 
Xi durch x, j 

H N ge A 
(2.28) x= R3 Wx = > wet. i 


1) Vgl. etwa das Beispiel in CASSEL et al. (1977, S.5). 
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und hat folgende Eigenschaften, falls Sr erwartungstreu ist: 


ar . et _ Ssd > 
(2.29) EX, = E} E,(X,|S) =E X =X , 
d.h. Re ist ebenfalls erwartungstreu und hat nach (2.24) die 
Varianz 
en N N 2 
(2.30) Var X, = var, ( } Wx) + a E} (W.)Var,%, 


i=1 i=1 


= Var ya 


N 5 ` 
i + L E} (w/)Var X. 


2 i 


Aus (2.30) sieht man, daß die Varianz des RRT-Schätzers immer um 
die Antwortvarianz größer als die Varianz des Schätzers bei direk- 
ter Befragung ist, 

Bei Anwendungen sind in der Varianz-Formel (2.30) im allgemeinen 


weder var, ga noch Var x, bekannt, so daß man Var x schätzen 


2 
muß. Hier kann man analog dem Vorgehen bei der Schätzung der Va= 


1) 


rianz in mehrstufigen Stichprobenmodellen verfahren. Hierbei ent= 
spricht der Auswahl auf der ersten Stufe die Stichprobenauswahl, 
der Auswahl auf der zweiten Stufe die Randomisierung. 

Ausgangspunkt ist eine erwartungstreue Schätzfunktion x4 fur die 
Merkmalssumme und eine erwartungstreue Schätzfunktion Vär xd fiir 


deren Varianz bei der direkten Befragung. 


Bedingung für die Erwartungstreue von SE (unabhängig von den x, 7 


Werten) ist: 
(2.31) E,W. = 1 , i = 1;,...,N . 


Den entsprechenden RRT-Schätzer erhält man durch Ersetzen von Xi 
durch ĝ: 


1) Vgl. etwa RAJ (1966). 


N 
(2.32) x" = J war.) wx, 


Ausgangspunkt der Überlegungen zur Varianzschätzung ist eine erwar- 
tungstreue Schätzfunktion Vär xa fiir Var ( N Wix) [= Var xdı, die 


sich als quadratische Form darstellen SC? läßt: 
a a N 
(2.33) var xX = J a,..x,x*, = yA; «XX. 
inj 3 J i,j=1 J J 
ES 
N 
= i A,x? + 14%, 8 
i=1 itj Ji J 
iis 7 dsj € 8 
mit A,.: = a... E R 
ij ijs 
(0) sonst 


Das Produkt der Merkmalswerte der Einheiten i und j wird in der 
Summe also mit aijs gewichtet, falls i und j in die Stichprobe S 


gelangen. 

Wegen der Erwartungstreue von Vâr x2 muB (2.34) gelten: 
EA; = var,W. 

(2.34) i,j=1,...,N 
ef = Cov, (Wj a ‘ 


Dieses Ergebnis ergibt sich durch Vergleich der Koeffizienten der 
quadratischen Form in (2.33) - nach Erwartungswertbildung - mit 


N 
denen von Var( p W x5). 
| i=1 e J 
Kennt man des weiteren eine erwartungstreue Schätzfunktion Si für 


var_x, (E584 = Var Xi), so läßt sich die Varianz von X” folgen- 


2 i 2 
dermaßen erwartungstreu schätzen: 
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(2.35) var X” 


H 
Mm 
ba 
u 
DO 
P 
) 
=) 
tI 
£ 
j= 
un 
Dn 
he N 


I 
tj 
t 

N 
= 
> 
KD 

N 
+ 
Mi 

Gei 
KR 

+ 

Beh 
= 
Pr 
Di 


~ ~2 5 — 

E} [ŻA] į Var,x,x;) + es + LW var 5. = 
i ifj i 

i + E,W,)Var,x, = 


I 
~ 
el 
> 
Gel 
+ 
> 
w~ 
QJ. 
> 
Lei 
Gel 
+ 
m 
D 
> 


(2.31) ,(2.34) und E,W, = 1 = E,W 


2 2 st 
Men + D Cov, (Wj W.)x,x. + FEW; Var,X, = 


2 a sr 
i Var Xi = Var X (2.29) A 


var, ()W,x,) + yE,W 
1 1 


zur Schätzung der Varianz von x7 setzt man also die x,-Werte in 


einen Schätzer für Var sr - als quadratische Form geschrieben - 


N 
ein und addiert } W.s* ; hierbei ist aus dem Nachweis der Er- 


; i i 
i=1 

wartungstreue ersichtlich, daß die beiden Bestandteile der Va- 

rianzschätzung keine erwartungstreuen Schätzfunktionen der Stich- 

proben-/Antwortvarianz sind. 


1) Vgl. die ähnliche Herleitung in ERIKSSON (1976a, S.3-11). 
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Für den Mittelwert erhalten wir den Formeln (2.28), (2.30) und 
(2.35) entsprechend: 


ar 1 = 

(2.36) = a H Wixi ; 
i=1 

ar ad 1 N a 

(2.37) Var u, = Var, tG È E,W; Var,x, 
N i=1 
E E E: 2. 

(2.38) Var u, = Var H: (El 2 Paar 


Kann man keine erwartungstreuen Schdtzfunktionen x, ermitteln, 
läßt sich aber zwischen den Erwartungswerten H. und My eine li- 
neare Beziehung 


(2.39) Hy =at bu_ 


aufstellen, so bietet sich ein Antwortvariablenansatz an: 

Man schätzt mit Hilfe von (2.36) auf die y-Werte angewandt uy 
und ermittelt dann - analog dem Vorgehen bei der Momentenme- 
thode - ji, aus (2.39): 


x . 4 ME Y 

(2.40) H, = H WY, = 5 
i=1 

e upaa 
(2.41) Ha = = ` 
Da die Yi Zufallsvariable sind, erhalten wir folgende Varianz 
von H : 

Ey 

a 1 s 1 P S 2 2 
(2.42) Var Uu = — Var Y = — Var,( W.u.) + EW. oe 

y N2 N2 1 iz7 ti iz? 2? i 
mit Uu. ze E, Y, und 0%: = Var_Y 

i’ 2 `i i’ E) 


Der erste Bestandteil ist die Stichprobenvarianz,der zweite 
Bestandteil die Antwortvarianz. 


Für die Varianz von ly gilt entsprechend: 
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` var u 
(2.43) Var H. = 


Da die Größen, die in (2.42) auftreten, bei Anwendungen im allge- 
meinen nicht bekannt sind, sind Schätzungen vorzunehmen. (2.43) 
legt nahe, im gegebenen Stichprobenmodell (2.33) zur Schätzung 
der Varianz von N i anzuwenden - wir bezeichnen diese Schätz- 


d_ 1 a 


funktion mit Var Wy — Var’ Y - und in (2.43) einzusetzen. 


N2 


Diese Schätzfunktion ist jedoch nur bei nicht-stochastischen Merk- 
malswerten erwartungstreu; verwendet man sie bei RRT dennoch,so 


unterschätzt man die Varianz von ny systematisch: 


N 
ada 1 
(2.44 E Var => E,A..E,Y,Y: = 
Kee SE 11352143 
Ke? df 
== [ EA EN + E.A. L.u. u] = 
N2 = 1 ii 2 i i$j 1 ijij 


Kee 2. 2 
= z [ ) Var Woo; + u) + | Cov(W, Hun, 


i=1 Dé 

HE, a, 
= <3 Li Var,W,-o; + aes = 

1 N 5 N 
= 2 äi Var,W,-o; + a: Wu] z 
= Var n - — 5 of e d.h. 

N i=1 
(2.45) Bias (var iy) = - -z KM oi 


Dieser Bias geht - bei beschränktem o? - für N>» gegen Null. 


i 
Falls o? unbekannt ist, kann der Bias - zumindest im Multiple- 


Trial-Modell - erwartungstreu geschätzt werden: 


(2.46) Bias (VârfÎ p=- Lu ai 


Im Antwortvariablen-Ansatz kann man auch die Auswirkungen eines 
Multiple-Trial-Modells gut untersuchen. Wir nehmen an, jeder Be- 
fragte in der Stichprobe gäbe k-Antworten Yay! ies, j=1,...,k. 

k 


Zur Schätzung verwendet man anstelle von Y, Y, = 5 ¥,5/* (ies). 
j=1 
Die Varianz des Multiple-Trial-Schätzers e hat dann folgendes 
Aussehen: 
l tvar } 
(2.47) Var ü_ = — [Var W.Y., ] = 
Y y? u 
N N 
-L 1 2 „2 
= [ver, 2 Wu, ty | EW of) 
N i=1 i=1 


d.h., durch ein k-Trial-Modell verringert sich die Antwortvarianz 


um den Faktor 1/k, während die Stichprobenvarianz gleich bleibt. 


Um den ERIKSSON-Ansatz und den Antwortvariablen-Ansatz zu ver- 


gleichen, muß man von einem Modell ausgehen, in dem E Y; = atbx, , 


2 
i=1,...,N, gilt. 


Es sind dann: 


N 
>; 1 
(2.48) X => } W,(Y,-a) 
m “a, * = 
und 
or 1 N 
(2.49) x ste K WY, - Na] 
A i=1 
N 
Die beiden Schätzer stimmen nur dann überein, wenn 1 Wi = N, 
i=1 


was beispielsweise für die einfache Stichprobe 
ohne Zurücklegen, geschichtete Stichproben, nicht aber für die 
Auswahl mit ungleichen Auswahlwahrscheinlichkeiten gilt. 


Bei der Behandlung der einzelnen RRT-Modelle werden - als 
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Spezialfall eines theoretisch etwas komplizierteren Modells - 
für das einfache Stichprobenmodell ohne Zurücklegen die For- 
meln für die Schätzer und ihrer Varianzen angegeben. In diesem 
Fall gilt für die WÉI 


N/n ies 
= d = n 
O its 
darüber hinaus 
gw? = N 
i n 
(2.51) i,j=1,...,N 
N-n Da N-n i i 
var WV, = = Cov (W; H. = = N T DEA 
Schätzt man die Varianz von Hy so hat die Schätzfunktion 
s? = vârf H einen negativen Bias: 
2 a da 1 2 N-n 
(2.52) S}: = Var H = << d (Y.- Y) ..— 
1 y (n-1)n ies 2 N 
2 1 P 
(2.53) Bias Si =- — Var.Y. e 
1 N? iz] 2 i 


Vernachlässigt man dagegen den Korrekturfaktor, so überschätzt 


diese Schätzfunktion s2 die Varianz von Wy systematisch: 


2 
2 1 =: 2 
(2.54) SS: =——  ) y,- Y) 
2 n(n-1) ies i 
(2.55) Bias S, Wise 
mit N N 
že sl -1 2 
Saye ay È (EY; -N Ki Bar; 
i=1 i=1 


Eine Vernachlässigung des Korrekturfaktors führt also auch bei 


der RRT zu einer 'konservativen' Schätzung der Varianz. 


Abschließend sei eine mehrdimensionale Erweiterung der grundle- 


genden Varianzzerlegungen (2.24) und (2.30) und der Schätzungen 
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(2.35) und (2.44) angegeben, die z.B. bei der Schätzung von An- 
teilen eines mehrklassigen Merkmals benötigt werden. 

Wendet man (2.23) komponentenweise auf einen Schätzvektor 6% an, 
so erhalten wir: 

(2.56) EQ” = E, E,(8"|s) 


Bei der Betrachtung der Varianz-Kovarianzmatrix p(6*) benötigt man 


zusätzlich zu (2.24) eine Zerlegung für die Kovarianzen: 
ar ar, _ ar r ar ar 
(2.57)  Cov(d,,8,) = Cov, (E,8;, E,9,) + E, (Cov, (8,,8,)) e 


Also gilt für die Varianz-Kovarianz-Matrix von 6* : 


(2.58) D(8°) = D} (E 8 |S) + E,D,(8" |S) : 
Entsprechend gilt für einen - aus einem direkten Schätzer ya ab- 
geleiteten - RRT-Schätzer 
(2.59) ae D W X$; mit E, xX; = x, s i=1,....N, 
die Zerlegung 

sÝ sa > 2 a 
(2.60) D(x") = D(X) + 2 E,W D, (x, |S) ; 


Hat man eine erwartungstreue Schätzung D, für D,(x,) zur Verfü- 


gung, so läßt sich (2.60) durch (2.61) erwartungstreu schätzen: 


(2.61) B(x 


Verwendet man den Antwortvariablen-Ansatz, so erhalten wir, wie 
im ERIKSSON-Ansatz, völlig analoge Formeln zu (2.42) und (2.45). 


Aufgrund der für diesen Ansatz notwendigen linearen Beziehung 


zwischen vu, und Hy? 


(2.62) = Ap +b U ;b ;b ER wë ER? regulär, 
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erhalten wir 


(2.63) U =A 


- J und 


2.4 GRUNDLAGEN DES VERGLEICHS VON RRT-MODELLEN 


Eine Betrachtung der Modelle in den Kapiteln 3 bis 6 zeigt, daß 
für eine bestimmte Merkmalskonstellation oft mehrere RRT-Modelle 
zur Verfügung stehen, die zudem mit den Verfahren der direkten 


Befragung konkurrieren. 


Für den Anwender ist es nun wichtig zu wissen, wann er überhaupt 
ein Verfahren der RRT sinnvoll anwenden soll, und wenn ja, wel- 
ches. Als Vergleichs- bzw. Entscheidungskriterium ist - wie wir 

in Kapitel 1 gesehen haben - die Genauigkeit (accuracy) zu ver- 
wenden, die mittels des mean square error erfaßt wird. Für den 
Vergleich bedeutet dies, daß die Varianz als Vergleichskriterium 
sinnvoll nur dann zu verwenden ist, wenn man davon ausgehen kann, 
daß der Bias der zu vergleichenden Modelle gleich groß ist. Ver- 
gleicht man Verfahren der RRT mit denen der direkten Befragung, SO 
ist - nach dem in Kap.2.3 Gesagten - festzustellen, daß die Varianz 
(als Gegenmaß der Präzision) eines RRT-Verfahrens größer ist als 
bei direkter Befragung. Ein RRT-Modell ist also nur dann sinnvoll 
anzuwenden, wenn die Erhöhung der Varianz durch eine mindestens 
ebenso große Verringerung des (quadrierten) Bias kompensiert wird. 
Die Vorteilhaftigkeit eines RRT-Verfahrens gegenüber einem direk- 
ten Befragungsverfahren hängt damit auch vom Stichprobenumfang ab, 
da die Antwortvarianz mit dem Faktor 1/n fällt, während dies für 


1) 


den Bias nicht zutrifft . Für ein RRT-Verfahren, bei dem sich 


1) Vom Bias kann sogar angenommen werden, daß er bei wachsendem 
Stichprobenumfang steigt, da bei kleineren Stichprobenumfängen 
sorgfältigere Erhebungsmethoden eingesetzt werden können; vgl. 
hierzu STRECKER (1978, S.91 £.). 
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die Varianz gemäß (2.21) zerlegen läßt, sind die Zusammenhänge 


schematisch in Abbildung 2.4 dargestellt. 


Abb. 2.4: Vorteilhaftigkeit eines RRT - Modells 


E: Var, ô" Antwortvarianz des RRT - Modells 


2 Reduktion des 
(b" ) (quadrierten) Bias 
durch RRT 


2 
(bf) - 


Direkte n Stichproben - 


<Befragung >< RRT vorteilhaft umfang 
vorteilhaft 


Um empirisch gehaltvolle Vergleichsaussagen treffen zu können, 
ist die Kenntnis der Verringerung der Verzerrung durch die RRT 
notwendig. Im Abschnitt 3.5 werden hierzu einige Modellrechnungen 
durchgeführt. 


Stellt man nun Vergleiche zwischen RRT-Modellen untereinander an 
und verwendet die Varianz als Vergleichskriterium, da man über die 
Verzerrung keine Aussagen machen kann, so ist sicherzustellen, daß 
die verglichenen Modelle zumindest einen gleich großen, wenn auch 
unbekannten, Bias haben. Da die RRT darauf abzielt, durch die Ver- 
traulichkeit der Antwort die Antwortbereitschaft der Befragten zu 
erhöhen und damit den Nicht-Stichproben-Fehler zu verringern, er- 
scheint es sinnvoll, die Vertraulichkeit mittels einer Maßzahl 
'Vertraulichkeits' - bzw. 'Protektionsgrad’ zu quantifizieren und 


Vergleiche dann aufgrund eines konstanten Protektionsgrads vorzu- 
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nehmen. Die Vertraulichkeit eines RRT-Modells hängt entscheidend 
davon ab, inwieweit man aus der Antwort y auf den Wert der Unter- 
suchungsvariablen x schließen kann. Aus statistischer Sicht kommt 
es also auf die bedingten Verteilungen p(x|y) an, die die Wahr- 
scheinlichkeit (Dichte) für den Zustand x angeben - unter der Be- 
dingung, daß man die Antwort y erhalten hat -; sie werden von 
ANDERSON als 'revealing densities' bezeichnet "E, Bei direkter Be- 
fragung sind diese Verteilungen für eine Antwort SE Ein-Punkt- 
Verteilungen, korrekte Beantwortung vorausgesetzt. Die Ansätze zur 
Messung des Vertraulichkeits- Protektionsgrads gehen also von die- 
sen 'revealing densities’ aus; in der Literatur werden verschieden- 
artige Varianten vorgeschlagen, die meist auf bestimmte Modell- 
Typen zugeschnitten sind und auch hier im Zusammenhang mit diesen 
behandelt werden sollen. 

Eine Möglichkeit besteht darin, die maximale bedingte Wahrschein- 
lichkeit über alle möglichen Antworten für alle oder die sensiti- 


ven Werte von x(2,) als GegenmaB des Protektionsgrads zu betrach- 


ten: 2 
e = ne 
(2.65) P: max P(x|y) e NS 2, ' 
EQ 
ebe 
e 
x 


Geht man davon aus, daß die Vertraulichkeit einer Antwort umso ge- 
ringer ist, je stärker die Wahrscheinlichkeitsmasse der bedingten 

Verteilung um einen Punkt konzentriert ist, so erscheint es nahe- 

liegend, die Varianz der bedingten Verteilungen als Maß für den 


Protektionsgrad zu wählen. 


1) ANDERSON (1975b, S.4). 


2) Vgl. diesen Ansatz für alternative Untersuchungsmerkmale bei 
LANKE (1975, 1976). 
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ANDERSON schlägt zwei Versionen vor: > 


(2.66) Pay? = min Var (X| Y=y) und 
en 
Ny 

(2.67) Paot = E [var (X|¥Y) ] j 


wobei die durchschnittliche Varianz den Nachteil haben kann, daß 
trotz eines ausgewiesenen positiven Protektionsgrads einzelne Ant- 
worten exakte Rückschlüsse auf den Wert der Untersuchungsvariablen 
zulassen können S r 

Mit der Betrachtung der Vergleichsmöglichkeiten von RRT-Modellen 
mit der direkten Befragung bzw. untereinander, wobei insbesondere 
das Konzept des Vertraulichkeits- bzw. Protektionsgrads bedeut- 
sam ist, sind die allgemeinen Ausführungen zur RRT abgeschlossen. 
Hierauf kann eine detaillierte Behandlung einzelner RRT-Modelle 
erfolgen, in der die allgemeinen Ergebnisse spezialisiert ange- 
wandt werden. 


1) Vgl. ANDERSON (1975b, S.12),und ANDERSON (1977, S.16f). 


2) Verwendet man etwa das Maß (2.67) für den Protektionsgrad, so 
sieht man - anhand der schon in anderem Zusammenhang benutzten 
Varianzzerlegung - auch, daß ein Multiple-Trial-Modell eine 
kleinere (höchstens genauso große) Protektion wie das einfa- 
che Modell bietet: 


Betrachten wir ein 2-Trial-Modell mit den Antworten Y} und 
Yo" SO gilt: 


E, var (X|y,) = Ey 2 Var (X|y, ry.) tE, Var,E(X|y, Y3) h 


hierbei ist die linke Seite der Protektionsgrad bei nur einer 
Antwort, der erste Term der rechten Seite der Protektionsgrad 
(i.S. von (2.67)) bei zwei Antworten. Da der zweite Term auf 
der rechten Seite nicht negativ ist, ergibt sich die Behaup- 
tung. 
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3, MODELLE ZUR SCHÄTZUNG DES ANTEILS 
EINES ALTERNATIVEN MERKMALS 


Die Schätzung des Anteils eines alternativen Merkmals steht seit 
der Begründung der RRT durch WARNER (1965) im Vordergrund des 
Interesses. Das 'klassische' Modell von WARNER (1965) wurde in 
der Folgezeit vielfach modifiziert (Angabe der korrekten ML- 
Schätzer, Entwicklung von Multiple-Trial-Versionen), und es wur- 
den verwandte Modelle, wie das Contamination-Modell, entwickelt. 
Gegenüber diesen Modellen, deren Grundlage jeweils die Frage 
nach dem sensitiven Merkmal ist, unterscheiden sich die sogenann- 
ten Unrelated-Question-Modelle, die mit einer zusätzlichen - 


nicht sensitiven - Frage arbeiten. 1) 


3.1 DAS WARNER-MODELL ?) 

Im WARNER-Modell wird dem Befragten mittels eines Zufallsmechanis- 
mus (Randomisierungsvorrichtung) mit einer bekannten Wahrschein- 
lichkeit P (+ 1/2) die Frage "Besitzen Sie die Eigenschaft A?" 
(2=1) und mit der entsprechenden Gegenwahrscheinlichkeit die Frage 
"Besitzen Sie die Eigenschaft Nicht-A (A)?" (Z=0) gestellt. 

Als Randomisierungsvorrichtung kann beispielsweise ein Kartenspiel 
(das in entsprechenden Anteilen Karten mit der Frage nach A bzw. 

A enthält) oder eine Urne (mit Kugeln in zwei verschiedenen Far- 
ben, die jeweils eine der beiden Fragen symbolisieren), verwendet 
1) Die verschiedenen Modelle (einschließlich des 'Grenzfalls' 


der direkten Befragung) lassen sich auch kombiniert anwenden; 
vgl. hierzu SWENSSON (1972, 1976d). . 


2) Vgl. WARNER (1965). 


3) Die Fragestellung wird hier bewußt einfach formuliert, um eine 
klare Darstellung zu ermöglichen. Bei Anwendungen ist die Formu- 
lierung der Frage und ihre Position im Fragebogen bzw. Inter- 
view nach den Methoden der empirischen Sozialforschung sorg- 
fältig und der Untersuchung adäquat zu wählen. 
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werden. 

Der Befragte zieht - unbeobachtet vom Interviewer - z.B. eine 
Karte (Kugel), beantwortet die gestellte Frage mit 'Ja' oder 'Nein' 
(Y=1 bzw. Y=O) und legt die Karte (Kugel) im Regelfall in das Kar- 
tenspiel (Urne) zurück. Ohne Zurücklegen wäre andernfalls aus dem 
Zustand des Kartenspiels (der Urne) vor und nach der Befragung 

die gestellte Frage zu rekonstruieren un 

Aus der Anzahl Di der Ja-Antworten bei n zufällig ausgewählten 
befragten Personen läßt sich ein Schätzwert 7 für den Anteil 1 

der Eigenschaft A und für die Varianz der Schätzung angeben. 
Betrachtet man das WARNER-Modell in den Kategorien des allgemei- 
nen RRT-Modells,so sind die Untersuchungsvariable X, die Randomi- 
sierungsvariable 2 und die Antwortvariable Y Bernoulli-Variable, 


deren Verteilungsparameter mit 1, P und A bezeichnet werden sollen. 
X, Z und Y sind über folgende Abbildung T miteinander verbunden: 


T : 10,1} x {0,1} {0,1} 
(3.1) (X,z)» y = z.x + (1-z)-(1-x) 


Aus (3.1) läßt sich der Zusammenhang zwischen m, P und à ermitteln - 
etwa durch Erwartungswertbildung, den Satz von der totalen Wahr- 


scheinlichkeit oder über Formel (2.3): 
(3.2) A = Pt + (1-P) (1-7) 


Zieht man (3.2) zur Ableitung der Schätzfunktion für 7 heran, so 


erhält man nach der Momentenmethode den Schätzer Ty’ 


(3.3) îy = E mit T= 2 (P $4) : 

1) Diese Einschränkung gilt nicht für den - seltenen - Fall, daß 
die n Befragten an einem Ort versammelt sind und n Fragen-Kar- 
ten an die Befragten verteilt werden. Vgl. hierzu DEVORE (1977, 
S.1528).Das Modell 'Ziehen der Fragen ohne Zurücklegen' behan- 
deln KIM/FLUECK (1978b). 


= E 


aus dem Anteil der Ja-Antworten in der Stichprobe und dem Modell- 
parameter P. Du ist wegen der Erwartungstreue von x erwartungs- 
treu. 

Die Methode der kleinsten Quadrate liefert - nach entsprechender 
Umformulierung des Modells - die gleiche Schätzfunktion wie die 


Momentenmethode II. 


îm = "ko ist somit nicht nur erwartungstreu, sondern auch kon- 


sistent und - unter den in der Antwortvariablen linearen Schätz- 
funktionen - effizient gé 

Für die Maximum-Likelihood-Schätzfunktion ergeben sich jedoch 
einige Modifikationen. 


Zwar behaupten WARNER > Tä 


der ML-Schätzer für 1. Dies liegt auch nach dem Invarianzprinzip 


und andere Autoren mit ihm, sei auch 


der ML-Methode nahe, ist jedoch nicht richtig, da folgende Re- 
4) 


striktionen bezüglich A und tm zu beachten sind : 


A € [min (P,1-P), max (P,1-P)]; P + - 
(3.4) 


ne [0,1] e 


während bei der Momentenschätzung unzulässige negative Schätzwerte 
und Werte größer als eins auftreten können, ist die ML-Schätzung 


1 auf das Intervall [0,1] besc, rdnkt: 


ML 
O ; Hu < O 
(3.5) Tay, Ski 2 6 rte SH 
1 : Hu > 1 


1) Vgl. WARNER (1971, S.885£.). 


2) RAGHAVARAO (1979) schlägt einen nicht linearen Schätzer für m 
vor, dessen Werte zwar auf [0,1] beschränkt sind, der jedoch 
nicht gleichmäßig effizienter als der vergleichbare - lineare - 
Schätzer ist. 


3) Vgl. WARNER (1965, S.67). 


4) Vgl. SINGH (1976, S.772); DEVORE (1977, S.1527); 
FLIGNER et al. (1977, S.1515). 
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TML ist im Gegensatz zu Ty 


einen kleineren mean square error als ı 


nicht erwartungstreu, besitzt jedoch 
, 1) 
Mi 


(3.6) E îm tn 


(3.7) MSE (Tyr? = MSE (îy) 


Die Varianz des Momentenschätzers Ty ergibt sich aus der Varianz 
von A und läßt sich folgendermaßen in Stichproben - und Antwort- 
varianz zerlegen: 

AlleA). 2 


(3.8) Var ı, = 5 
n(2P-1) 


M 


+ 


= Imt1-m) 


= Ain (1-n) 2) 


+ 
| 
| 
— 
tos 


16(P-0.5) 2 


Die Zusatzvarianz wird umso größer, je näher P bei O,5 liegt, und 
kann sehr große Werte annehmen, wenn man bedenkt, daß die Stich- 
probenvarianz (n=1) höchstens 0,25 ist (siehe Abbildung 3.1). 


Eine erwartungstreue Schätzung für die Varianz ist > 
(3.9) Vär ity = A(1-A) SE T (1-7) Pi P(1-P) = 
(n-1) (2P-1) n-1 (n-1) (2P-1) 


Die bisherigen Ausführungen bezogen sich auf das Modell unabhängi- 
ger, identisch verteilter Stichprobenzüge (Stichprobe mit Zurück- 
legen). In allgemeinen Stichprobenmodellen, wie sie in der Praxis 


1) Vgl. SINGH (1976, S.772); DEVORE (1977, S.1527); 
FLIGNER et al. (1977, S.1515£.). 


2) Vgl. WARNER (1965, 5.67). 


3) Dieses Ergebnis folgt aus (3.19) mit N ze, Vgl. hierzu im 
Gegensatz ERIKSSON (1973, S.101). 
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Abb.3.1: Die Antwortvarianz im WARNER-Modell (n=1) 


10.00 


6.00 8.00 l 
al de E AE Ee 
Ba 
< 
w 
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N 
= 
KR 


oO 
= 
t+ \ 

\ 
O | \ 
pS \ 
"` N 

d 

ey max (Var? ) 
Ka 
Q S N 
2.50 č.60 9.79 0.99 0.90 1.90 


angewandt werden, lassen sich Schätzfunktionen für m und die 
Varianz des Schätzers aufgrund der theoretischen Ergebnisse für 
die direkte Befragung nach dem in Kapitel 2.3.2 Dargelegten be- 


stimmen. 

Im ERIKSSON-Ansatz wählt man als Schätzfunktion x, für x 1) 
7 YT (1-P) ` l 

(3.10) X, = ae e Ex, =x ; ies e 


Für die meisten gängigen Stichprobenmodelle liefert die Stichpro- 
bentheorie erwartungstreue Schätzfunktionen a? und var #9 für die 
direkte Befragung, wobei et eine Linear-Kombination der x, (ies) 
und var 7% eine quadratische Form ist. 


d 


Aus der Formel für 1 läßt sich durch Ersetzen von x, durch x, 


ein erwartungstreuer RRT-Schätzer a gewinnen, 


1) Vgl. ERIKSSON (1976a,S.11). 


SE e E e vr | S . 4 Te E 
(3.11) m = T (R3 ieS): = g We = Ig l WeY, 7 [17P}17(2P-1); 
i€S 1€S 
dessen Varianz sich nach (2.37) berechnen läßt 1) als 
N N 
(3.12) Var 7” = — (var, ( X Wx) + -PUP E,W.) = 
N i=1 (2P-1) i=1 
d.1 p(i-p) N 2 
= Near a hie |) EW 
2 4° 1 i 
N (2P-1)° EN 
und die nach (2.38) erwartungstreu geschätzt wird durch 2) 
(3.13) Var Af = var CH ies) + -| -2U-P) Se . 


N? (2Pp-1)? ies 


Rechentechnisch einfacher ist der Weg über die Antwortvariable Y, 
die - fälschlich - als dichotomes Merkmal behandelt wird (Antwort- 
variablenansatz). Für diesen Fall existieren wiederum für die mei- 
sten Stichprobenmodelle erwartungstreue Schätzfunktionen į für den 
Anteil der Ja-Antworten und 87 (i) für die Varianz des Schätzers Sit 
Die entsprechenden Werte für die Untersuchungsvariable ergeben 
sich aus dem linearen Zusammenhang (3.2) zwischen A und m. 


Als Schätzung für den Anteil n erhalten wir - wie bei der Momenten- 


methode: 
(3.14) T= î-(1-P) A j = 1 J vw Y 
S 2P-1 ’ N ` iS i 
i€S 
1) Var.Y (2x sij var Z 
ER E 21 ` i 2.4. „Pli=P) 
ets. = oo 7 — id = — 5 ; 1€s e 
(2P-1) (2P-1) (2P-1) 


2) Bei der Berechnung von Var ano (x ) ist von der quadratischen 
Form (2.33) auszugehen; die Benutzung von Umformungen, 
die oft möglich sind, da die X, 0-1-Variable sind, ist nicht 


statthaft, da die x, keine 0-1-Variable sind. Aus diesem 

Grund ist der Antwortvariablen-Ansatz hier einfacher. 

a N 

524i): = ( E 
i,j=1 


3) 2, 
WËLL ; vgl. (2.33) 
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mit der Varianz 


Var i 


(3.15) Var 1 5 
(2P-1) 


die nach (2.43) und (2.45) erwartungstreu geschätzt wird durch 


KI 
den Ee 1) 


(3.16) Var 
(2r-1)2  N(2P-1)? 


wobei der zweite Summand auf der rechten Seite mit steigendem 


Umfang der Grundgesamtheit zu vernachlässigen ist. 


Zusammengefaßt bedeutet dies, daß man beim WARNER-Modell die 
Antwortvariable als dichotomes Merkmals auffassen kann und ent- 


sprechend dem gewählten Stichprobenverfahren wie üblich den An- 


teil A und die Schätzervarianz bestimmt. Aus dem linearen Zusam- 
menhang (3.2) von A und nm ermittelt man dann nm und die Schätzung 
der Varianz von 1, die allerdings um das Korrekturglied in (3.16) 


zu vergrößern ist. 


) 


Für das einfache Stichprobenmodell ohne Zurücklegen 2 ergeben 


sich folgende Formeln: 


“ 1 
(3.17) Sr = EISE , 
ies 
(3.18) Var m = nt (1-7) 5 N-n + PUL 3) 
n N-1 n(2P-1) 


1) Da auch die Y; 0-1-Variable sind, lassen sich für sd im 
Gegensatz zu (3.13) alle Umformungen der quadratischen 
Form (2.33) verwenden. 


2) MARASINI (1978) behandelt das WARNER-Modell in einer ge- 
schichteten Stichprobe. 


3) Vgl. KIM/FLUECK (1978b, S,347). 
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0a) 
(n-1) (2p-1) 2 


(2P-1) *(n-1) 


P(1-P) 


+ 
N N(2P-1) 


„Ki 
N 


„An P(1-P) 


2 


Übersicht 3.1: Das WARNER- Modell 


Frage Auswahlwahrscheinlichkeit 


Haben Sie die Eigen- 
schaft A ? (Z = 1) 


1. Fragen- 
struktur 


Haben Sie die Eigen- 
schaft A? (Z = O) 1-P 


2. Modell 


Untersuchungs- : u u 1) 
ey alternatives Merkmal 2, = {0,1} , P = B(1,7) 
Randomisie- 

rungs- d = {0,1} , = B(1,P) 
variable Z 

Antwort- 

variable Y Q, = {0,1} 


Abbildung T T: {0,1} x {0,1} + {0,1}: y = T(x,Z)= xz + (1-x) (1-z) 


Verteilung 
von 


Y 


e] 
ll 


B(1,A) A = PT + (1-P) (1-7) 


3, Schatzung 


Momenten- 
methode 


P(1-P) 
Ve ee 
n(2P-1) 


16 (P-0.5)? 


Maximum- 
Likelihood- 
Methode 


1) B(n,P) bezeichnet die Binomialverteilung mit 
n - 
pix) = (,) up 


Erwartungstreue TE a e S 
Schätzung der A(1-\) „au PR BS A 5 Zi EE 


Varianz (n-1) (2P-1)? 


4. Stichproben- 


theoretischer 
Ansatz 


d a 
ERIKSSON- nm (x, 3 i S) = 2 i 
Ansatz T LES 


Var ni + + eee 
N (2P-1) i 


ee 
Var T (x: iS) + 


Antwort- 
variablen- 
Ansatz 


(2-1)? N(2P-1)? 


Spezialfall: 
Stichprobe 

ohne Zurück- 
GEES . Non, POUR 


N-1  n(2P-1)° 
N-n P(1-P) . 


+ 
(2P-1)?(n-1) 


te) N-n P(1-P) 
Oe eee ke a H 
(n-1) (2P-1) N  N(2P-1) 
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3.2 MULTIPLE-TRIAL-VERSIONEN DES WARNER-MODELLS 


In den meisten realistischen Anwendungsfällen (etwa P=0.7) ist 
die Varianz des Schätzers im WARNER-Modell um mehr als das Fünf- 
fache größer als bei direkter Befragung. Ausgehend von der Va- 
rianzzerlegung (3.8) zielen daher die Multiple-Trial-Versionen 
des WARNER-Modells auf eine Reduktion der Antwortvarianz ab, 
indem der Befragte mehrmals die Fragenprozedur durchführt. 

In diesem Zusammenhang wurden zwei Randomisierungsanordnungen vor- 
geschlagen, die in der Literatur als Hopkins-I-und Hopkins-II-Ur- 
nen bezeichnet werden Sé 

Die Hopkins-I-Urne besteht aus einem kugelförmigen Behältnis (mit 
Kugeln in zwei Farben, die jeweils die Fragen nach A bzw. A sym- 
bolisieren,) mit einem Ausgang, der nach dem Schütteln genau eine 
Kugel aufnehmen kann (Abbildung 3.2). Der Befragte schüttelt die 
Urne m-mal und beantwortet jeweils die durch die gezogene Kugel 
symbolisierte Frage. Als Beobachtungsergebnis wird die Anzahl der 
Ja-Antworten festgehalten. 

Bei der Hopkins-II-Urne, die M Kugeln - K mit Farbe 'A', M-K mit 
Farbe A - enthält, besteht der Ausgang aus einem Röhrchen mit m 
Plätzen (Abbildung 3.2). Der Befragte schüttelt die Urne einmal 
und beantwortet dann die Frage, wieviele Kugeln im Röhrchen seine 
Eigenschaft repräsentieren 2), 

Technisch betrachtet unterscheiden sich die beiden Anordnungen - 
bei der gleichen Untersuchungsvariablen wie im WARNER-Modell - 
darin, daß die Randomisierungsvariable Z (Anzahl der Kugeln A bei 
(auf) den m Versuchen (Plätzen) im Fall I binominal verteilt ist: 
Bim, P), im Fall II dagegen hypergeometrisch: Him, M, K). 

Aus den Werten der Untersuchungsvariablen X und der Randomisierungs- 


variablen Z ergibt sich die Antwort Y: 


1) Vgl. LIU/CHOW (1976a, S.614) und LIU et al. (1976, S.563). 


2) Bei der Auslegung dieser Urne ist darauf zu achten, daß von 
beiden Kugelarten mehr als m Kugeln vorhanden sind, um auszu- 
schließen,daß in einigen Konstellationen eindeutige Rück- 
schlüsse auf den Merkmalswert des Befragten möglich sind. 
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(3.20) Y = T(X,Z): = XZ + (1-X) (m-2) . 


Abb. 3.2 : HOPKINS -I - und HOPKINS -Il -Urne 


HOPKINS -I-Urne 


Anteil der Kugeln 


O mit "An P 


HOPKINS -IL-Urne 


M Kugeln davon 


K _mit"A" 
=. K 
ze M 


Die Wahrscheinlichkeitsfunktion von Y ermittelt man über (2.3): 


I: pi) = i [7 piqipi + (1-7) pmi (i-p) $] = wl (n) 
(3.21) 
s E, Ld K| | M-K _ M-K K _ II 
II 3 Py (i) = — [a] (oe + (1 d 7 ted | = WI! cn) 
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Fiir Erwartungswert und Varianz gelten: 


(3.22) EY = m(Pr + (1-P) (1-7)) 
I : m*(2P-1)¢n (1-7) + mP(1-P) 
(3.23) Vary = 
II : m?(2P-1)?n (1-7) + mP(1-P)+ HE 


Bei der Varianz unterscheiden sich die Fälle I und II lediglich 
durch den Korrekturfaktor (M-m)/(M-1) im zweiten Summanden. 
Ausgehend von einer Stichprobe mit den Befragungsergebnissen 


Huese éi erhält man aus (3.23) den Momentenschätzer Tu? 


(3.24) u i=] 


di ist erwartungstreu, die Varianz läßt sich nach (2.37) zer- 
legen: 


(3.25) Var 1. Se E 


1 (1-7) 7 P(1-P) 
n nm(2P-1) 2 


P(1-P) M-m 
+ m a. ee 
n nm(2P-1) M-1 


Die Antwortvarianz reduziert sich also - vom Korrekturfaktor im 
Fall II abgesehen - um den Faktor 1/m bei m Versuchen (Plätzen), 
so daß gegenüber dem WARNER-Modell eine erheblich verringerte 
Schätzvarianz zu erreichen ist. 

Wie beim WARNER-Modell liefert die Methode der kleinsten Qua- 
drate - nach entsprechender Umformulierung des Modells - die glei- 


che Schätzfunktion wie die Momentenmethode. 
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Die Ermittlung der ML-Schätzer stößt jedoch auf Schwierig- 
keiten; hier sind numerische Verfahren - wie beispielsweise 
ein modifiziertes Newton-Verfahren: die "method of scoring' 1) 
anzuwenden, um die Nullstellen der Ableitung der logarithmier- 


ten Likelihood-Funktion zu bestimmen: 


m 
(3.26) L(t; n_,n,,--.,n) = n, log W, (7) 
ae m > 2 1 (n,: absolute 
= Häufigkeit 
der Ausprä- 
m W! (7. ) gung i in 
(3.27) aL lon, E, ; der Stich- 
ur Aen ng (ñ) probe) 
ML i ML 


Neben der recht aufwendigen numerischen Ermittlung der ML- 
Schätzer erweist sich als nachteilig, daß die Varianz des 


Schätzers nur asymptotisch anzugeben ist. 


Die Varianz von Tm wird durch (3.28) erwartungstreu geschätzt, 


) (e, 917 
(3.28) vår m, s HS nn f 


ain=iim (2p-1)? 


Für allgemeine Stichprobenmodelle lassen sich nach dem 


ERIKSSON-Ansatz die Schätzungen für 7 und die Schätzervarianzen 


über Schätzungen x, für x, aus (2.36) ,(2.37) ableiten: 


Y‚-m(1-P) ` 
Gen “Omar ' sa u 
=F . spe 5; . el > 
(3.30) m = 7 (R,sies) zs > Wisk; 


1) Vgl. LIU/CHOW (1976a, S.609) und RAO (1973, S.366ff.). 


N 
ratari ee IE Tom 
2 2. 1 i 
N m(2P-1) i=1 
(3.31) Var 7 = 
N 
II : var SÉ + ur. a) SN 
N“m (2P-1) E 1 


Die Zerlegung der Varianz in (3.41) entspricht (3.25). 


Die Varianzen in (3.31) werden nach (2.38) erwartungstreu ge- 


schatzt durch I. 
P(1-P) 


2 


I: Var ER P 5 
N m(2P-1) i€s 


Wis 
(3.32) Värıi = 

P(1-P) M-m y 
Nm(2P-1)? m-ı ies ÍS 
Im Antwortvariablenansatz bestimmt man einen Schätzwert D, für 
die durchschnittliche Zahl der genannten Kugeln und schätzt des- 
sen Varianz 8° ) wie bei der direkten Erhebung eines quantita- 
tiven Merkmals. Aus (2.41) und (2.43) mit (2.45) erhalten wir 


die entsprechenden Formeln, wobei wir (3.23) verwenden: 


`  Ū, - m(1-P) 

(3.33) T = m(2P-1) 
SC P(1-P) 
2 (2P-1) Zum 
Var 3 S| (B. ) 
(3.34) ar T ean Y o 
m. (2P-1)? 
II P(1-P) | M-m 


(2P-1) Zum 


1) Vgl. Fußnote 2) auf Seite 52. 
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Für das einfache Stichprobenmodell ohne Zurücklegen ergeben 
sich folgende Formeln: 


el 
(3.35) E als 2 Ya (PSP) 1 /(2P=1) 
LES 
I: T(1i-7t) N-n P "E, 
n N-1 nm (2P-1) 
(3.36) Var 1 = 
rr ; Um an n PUP) „ M-m 
n nm (2P-1) M-1 
} (¥,-¥)? 
I: ies N-n , P(1-P) 
° 2 2 
n(n-1)m(2P-1) N Nm (2P-1) 
(3.37) var î = _ 9 
ZE (x7) 
IL: ies N-n | P(i-P) | M-m 


n(n-1)m(2P-1)2 N  Nm(2P-1)? M-1 


Übersicht 3.2: Multiple-Trial-Versionen des WARNER-Modells 


1. Fragen- Hopkins - I - Urne : 
struktur m-malige Ausführung; jeweils Frage nach A bzw. A 
(mit Wahrscheinlichkeit P bzw. 1-P) 
Hopkins - II - Urne : (K Kugeln mit 'A', M-K Kugeln 
mit 'A') 
Frage: Wieviele der m gezogenen Kugeln 
symbolisieren Ihre Eigenschaft? 


2. Modell 


Untersuchungs- B(1,7) 
variable X 


isi = B(m,P = H(m,M,K 
Randomisierungs- z (m,P) , a (m,M,K) 


variable Z 


Antwort- Anzahl der Ja-Antworten, II : Genannte Zahl ; 


variable Y e = we 
Y m 

i O ei 
Abbildung T {0,1} x N a WAR 


(x,z) > xz + (1-x) (m-z) 


(Pint a-m (gf 2 (1-P) 4] 
l 


Verteilung K\ /M-K M-K\/ K M 
von Y d' | ) + (1-7) LJ m) 
i m-i 1 


3. Schätzung a ) ¥.-(1-P) 
m. i 
i€s 
Momenten- 2P-1 
methode 
. TUT) , SUE 


n nm (2P-1)? 


EE 8 P(1-P) 


n nm (2P-1)? 


Erwartungstreue 1 Sch 

Schätzung der _ i€s a 
i 2 

Varianz mineria (2P-1)? 


4. Stichproben- 
theoretischer 


Ansatz 


ERIKSSON- 
Ansatz 


Antwort- 
variablen- 
ansatz 


Spezialfall 
Stichprobe 
ohne Zurück- 
legen 


II : 


I : 


II : 


H 


È 
ES 
m(2P-1) 


u) 


m? (2P-1)2 


Su 


l m? (2P-1)? 


| MÜ-m) N-n | 


n 


71(1-T) . 


n 


aiiim BD 


N7m(2P-1) 7 


Ws, atl-P) 


N-1 


N-n 
N-1 


} vn g N-n 
ics 


— 2 
1 (3 
ies + 


n(n-1)m- (2P-1)7 


Y,-m(1-P) 
~~ m(2P-1) 


M-1 


H -m(1-P) 
fe, Ee 
m(2P-1) 


P(1-P) 
4 een 
Nm (2P-1)? 


P(1-P) 
+ — > 
Nm (2P-1)? 


P(1-P) 
nm(2P-1)? 


$ P(1-P) M-m 


nm (2P-1)? M-1 


P(1-P) 


+ 


N Nm(2P-1)° 


P(1-P) M-m 


N Nm(2P-1) 2 M-1 
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3.3 DAS CONTAMINATION-MODELL 


BORUCH 1) schlägt ein Modell vor, das nicht - wie das WARNER- 


Modell - den Merkmalswert des Befragten durch zufällige Zuord- 
nung der Fragen nach A bzw. A stochastisch verschlüsselt, son- 
dern in dem das Antwortverhalten (wahrheitsgemäße bzw. bewußt 
falsche Antwort) zufällig gesteuert wird. Es treten so mit den 


2) falsche positive (negative) Ant- 


Wahrscheinlichkeiten ġ_(¢_) 
p n 3) 


worten auf. Dieses sogenannte Contamination-Modell wird als 
vorteilhaft angesehen, weil es die Verwendung bekannter Mis- 
classification-Ansätze bei der Schätzung bzw. beim Testen zu- 
läßt a) 
sig macht. 

Die von BORUCH 


und die Entwicklung neuer Techniken weitgehend überflüs- 
>} genannten Beispiele zum Contamination-Modell 
gehen von Randomisierungsvorrichtungen aus, wie sie beim WARNER- 
Modell zu verwenden sind; die beiden Ausprägungen der Randomi- 
sierungsvariablen symbolisieren jedoch die Aufforderungen wahr- 
heitsgemäß zu antworten bzw. zu lügen. Bei diesem Vorgehen las- 
sen sich jedoch nur identische Werte für Be und Gi erreichen. Ver- 


schiedene Werte können nur mit einer zweidimensionalen Zufalls- 


variablen Z = TE erzeugt werden (zZ, und 2, sind 0-1 Varia- 
ble); zZ, = 1 bedeutet: Wahrheitsgemäße Antwort, falls Eigen- 
schaft A vorliegt, Z, = O: Wahrheitsgemäße Antwort, falls A 


1) Vgl. BORUCH (1971b, 1972). 


2) Wir nehmen o.B.d.A. an Gi + > < 1; für on + ġ_ = 1 ist 7 nicht 
schätzbar, ein Modell für a + to > 1 läßt sich durch Verwen- 
dung der Antwortvariablen (Nein = 1, Ja = 0) in ein solches 
mit Gi + Gi < 1 überführen. 

3) BORUCH/ENDRUWEIT (1973, S.233) ‚übersetzen ‘Contamination 
method' mit 'Infektionstechnik'. 

4) Vgl. BORUCH (1972, S.410) und BORUCH/ENDRUWEIT (1973, S.233). 

5) Vgl. BORUCH (1971b, S.63) und BORUCH (1971, S.404 £.). 
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vorliegt un 


2, und 2, sind also Bernoulli-Variable mit den Verteilungspara- 
metern (ier 2 und dp als deren Produkt sich im einfachsten Fall 
die (gemeinsame) Verteilung von Z ergibt: 


: S 2) 
(3.38) Py = B(1,1-9,) @ B(1,9)) 


Der Zusammenhang T zwischen der Untersuchungsvariablen X und 
der Randomisierungsvariablen 2 = (2, ,2,) mit der Antwortvaria- 


blen Y wird in (3.39) angegeben: 


(3.39) T: dÉi x dÉ > N, 


Z1 
wl ) )- XZ, + Ak AER i 
23 


Die Antwortvariable Y ist bernoulliverteilt mit dem Parameter \, 


(3.40) A = (1-9 Im + tira) ; 


dies ergibt sich aus (2.3) oder z.B. durch Erwartungswertbil- 
dung aus (3.39). 


(3.40) ist die Ausgangsgleichung zur Gewinnung des erwartungs- 


treuen Momentenschätzers mt: 


M 
` Ve e Än, 
(3.41) ™ = 4 9,79, ` (>, + Ze < 1) mit A = nn R 


Die Varianz des Schätzers ist 


1) Ein Kartenspiel, das die Randomisierungsvariable Z reali- 
siert, besteht beispielsweise aus vier Kartenarten mit den 
jeweils zwei Aufforderungen (2,,2,), also (0,0), (0,1),(1,0) 
und (1,1), die mit den relativen Häufigkeiten ba (179 ), 
tato’ 1901-0, und -An tp auftreten. P 


2) Selbstverständlich sind auch andere gemeinsame Verteilungen 
mit den Randverteilungen B(1,1-9,) und B(1,$_) denkbar. So 
kann etwa die relative Häufigkei-t für ein P feld der zwei- 
dimensionalen Verteilung von Z gleich Null gewählt werden; 
vgl. HORVITZ et al. (1976, S.186). 
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à (1-A) 


(3.42) Var Tī, = 5 
n(1-o,-4)) 


M 


Diese Varianz läßt sich nach (3.43) in die Stichproben- und 


Antwortvarianz zerlegen: 
m(i-m) | ne (lo) EN ee) 


(3.43) Var Tu = 
7 n dk 


Sie wird erwartungstreu aus der Stichprobe geschätzt durch: 


(3.44) Var îy _ — A a Tilen 5 
(n-1) (1-¢n-¢p) n-1 


, Ho (1-9) + 1-7) > (1-$_) 


(n-1) (1-6-6) ° 


Bei entsprechender Umformulierung der Modellsituation als linea- 
res Modell kann man leicht zeigen, daß wie beim WARNER-Modell 
und seinen Varianten der KQ-Schätzer mit dem Momentenschätzer 
übereinstimmt. 
Der ML-Schätzer ist wie in 3.1 und 3.2, der auf das Intervall 
[0,1] "gestutzte" Momentenschätzer; er ist nicht erwartungs- 
treu und hat einen kleineren mean square error als Du: 
Für die allgemeine stichprobentheoretische Betrachtung im 
ERIKSSON-Ansatz ist ein Schätzwert x, für x, abzuleiten: 
Y.-® 
(3.45) x, = —ı—- EX, = x ies 


` = = a b i H 
i 1 Sr (Gi 2i i 


bel 


Im allgemeinen Fall gilt dann - bei entsprechendem Vorgehen wie 


in 3.1 und 3.2: 
(3.46) af = SI. ; ics) = 


mit der Varianz: 


- 68 - 


(3.47) Var fi" = var a7 4 kr s 1) 
2 2 
TI EI LENG 


+ 2 


N? 1-00)? 


Da die Varianz von 7 zu schätzen ist und der Antwortvariablen- 


2) 


ansatz hierbei vorteilhafter ist , werden für diesen die 


Schätzfunktionen für nm und die Schätzung von Var 1 angegeben: 


1 
ON Ki Wii? 
(3.48) T= T 
eg 
E SES 19, (1-9) + (1-1) 6 ,01-9,) SS 
EENG 
ATM N(1-¢,-,) 


Für die einfache Stichprobe ohne Zurücklegen erhalten wir folgen- 
de Ergebnisse: 


i-o 
` S 1 
(3.50) T = wooo A= = ) Y. 
l gi gd ~ ggg = 


n(1-mM) N-n no lloat (1-0) 9, 01-6) 
-n HD "D 


(3.51) Var 1 = ——— - — + 5 
2 Sr? n(1-$,-$))) 
: A(1-A) N-n no (1-4) + (1-7) o (1-00) 
(3.52) Var 7 = ee E NEE 
(n-1) (1-9,70,) N N (10170, 


1) Aus (2.34) mit Var,x, = varzt / 1-00)" = 
= 1-0.) A Cleo, mo A N - 
2) vgl. Fußnote 2) auf Seite 52. 


a2 2 
: = oe re ae EE e . .33). 
3) SO m. Y,)/NÜ; vgl. (2.33) 


Übersicht 3.3 ; Contamination - Modell 


1. Fragen- Neben der Frage nach der Eigenschaft A : 
struktur mit Wahrscheinlichkeit Anweisung 
d Lügen Sie, falls Sie zu 


n 


A gehören (Zz, = 


Lügen Sie, falls Sie zu 


A gehören (z, = 1) 


2. Modell 


Untersuchungs- B(1,7) 
variable X ® 


rungs- 


Randomisie- 1 
variable Z 1 


SCH 8 B(1,1-0) 


Untersu- 
chungs- 
variable Y 


Abbildung T 


(x,z) > xz, + (1-x)z 


1 2 


Verteilung 
Y 1- + -T 
von ( $a) T Sech ) 


KS Schätzung 


Momenten- 
methode 


To (1-6) + (1-79 11-0) 


EE EN 


= 70 = 


Erwartungstreue T (1-7) To (1- )+(1-7) > (1-$_) 
Schätzung der ——— + EE 
Varianz n-1 Beil 


4. Stichproben- 


theoretischer 
Ansatz 


ERIKSSON- 
Ansatz 


-d 
Var T + 
N 2 non 
U mp bation) LEN 


2 2 
N (1 - 3. - GM 


Antwort- 
variablen- 
ansatz 


19 1-0) + (1-m)$_ (1-9) 
n n eg P 


EEN dk 


Spezialfall 

Stichprobe 

ohne 

Zurücklegen 
79,119) + (1-1) (1-6) 
WERL ee ZB 


n(1-$ - Si 


GIE E EN 


T (1-4 )+ (1-1) > a 


2 
( ) 


3.4 UNRELATED-QUESTION-MODELLE (MODELLE MIT UNABHÄNGIGER 
ZUSATZFRAGE) 


Eine große Klasse der RRT-Modelle bilden die sogenannten 
Unrelated-Question-Modelle, die in Anwendungen fast ausschließ- 
lich verwandt werden. Im Gegensatz zum WARNER-Modell (und sei- 
nen Versionen) und dem Contamination-Modell beziehen sich die 
zufällig ausgewählten Fragen nicht auf dasselbe Merkmal, näm- 
lich das Untersuchungsmerkmal. Neben der Frage nach dem sensi- 
tiven Untersuchungsmerkmal gibt es eine (oder mehrere) Frage(n) 
nach einem (oder mehreren) anderen nicht sensitivem(n) Merk- 
malen. |) Der Interviewer weiß also nicht, ob der Befragte eine 
Frage nach dem sensitiven oder dem nicht-sensitiven Merkmal be- 
antwortet. Deshalb rechnet man beim Unrelated-Question-Modell 
mit einer gegenüber anderen RRT-Modellen noch erhöhten Antwort- 
bereitschaft. "Simmons [auf den die Entwicklung dieses Modells 
zurückgeht. (Der Verf.)] felt that by providing the respondent 
the opportunity of replying to one of two questions in which one 
question is completely innocuous and unrelated to the stigma- 


tizing attribute, the respondent might be more truthful." 2) 


Wenn die Verteilung des nicht-sensitiven Merkmals U unbekannt 
ist, sind zwei Antworten je Befragten oder zwei Stichproben not- 
wendig, um den Anteil mt des Untersuchungsmerkmals X zu schätzen, 
da zu dessen Schätzung Schätzwerte der Parameter der Verteilung 
von U benötigt werden. Diese Modelle werden in 3.4.1.3 und 

3.4.2 behandelt. Ist die Verteilung von U a-priori bekannt, wird 
nur eine Antwort je Befragten und nur eine Stichprobe zur Schät- 
zung benötigt (3.4.1.1) .Diese Situation läßt sich durch ein 


1) Da dieses Merkmal nicht mit dem Untersuchungsmerkmal zusam- 
menhängen soll, wurde die Bezeichnung 'Unrelated-Question- 
Modell' gewählt. 


2) GREENBERG et al. (1969a, S.522). 
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Pseudo-Merkmal erreichen, wobei dem Befragten mit gewissen Wahr- 
scheinlichkeiten die Aufforderungen, 'Ja' bzw. 'Nein' zu antwor- 


ten, gegeben werden 3.4.1.2. 


3.4.1 Ein-Stichproben-Modelle 
3.4.1.1 Das SIMMONS-I-Modell 
In dem von SIMMONS entwickelten Modell 2) 


Wahrscheinlichkeit P die Frage nach dem sensitiven alternativen 


wird dem Befragten mit 


Merkmal X und mit Wahrscheinlichkeit 1-P die Frage nach dem nicht 
sensitiven alternativen Merkmal U gestellt. Die Verteilung die- 
ses Zusatzmerkmals ist bekannt së 

Definiert und realisiert man die Randomisierungsvariable Z wie 
im WARNER-Modell,so ergibt sich zwischen dem alternativen Unter- 
suchungsmerkmal X, dem alternativen (nicht sensitiven) Zusatz- 
merkmal U sowie der Randomisierungsvariablen Z und der Antwort- 


variablen Y folgender Zusammenhang T: 


(3.53) T : {0,1} x {0,1} x {0,1} + {0,1} 


(x,u,z) > zx + (1-z)u 


Man sieht leicht, daß dieses Modell nicht symmetrisch ist. Denn 
aus einer negativen Antwort kann man schließen, daß der Befragte 
eine etwaige Frage nach dem sensitiven Merkmal nicht positiv be- 


antwortet hat; somit kann vom Befragten aus die Neigung zu einer 


negativen Antwort bestehen eh 


1) Im Folgenden wird die Schätzung des Anteils P(A) (=1m) einer 
sensitiven Eigenschaft A behandelt. DELACY (1975) zeigt die 
Verwendung des Unrelated-Question-Modells zur Schätzung eines 
bedingten Anteils P(A|B), wobei sowohl A als auch B sensi- 
tive Eigenschaften sind. 


2) Dieses Modell wurde erstmals in HORVITZ et al. (1967) vorge- 
stellt und wird in GREENBERG et al. (1969a) aüsführlich 
behandelt. 


3) Multiple-Trial-Versionen dieses Modells behandeln HORVITZ 
et al. (1967, S.67) und GOULD et al. (1969). 


4) Vgl. GREENBERG et al. (1969a, S.530). 


DE e = 


Eine symmetrische Version des Unrelated-Question-Modells wurde 


I Das als Randomisierung verwendete 


von BOURKE vorgeschlagen 
Kartenspiel enthält drei Kartentypen: 

1 2 3 
Haben Sie die 
(sensitive) 


Haben Sie die 
(nicht sensi- 


Haben Sie die 
(sensitive) 


Eigenschaft A? tive) Eigen- Eigenschaft A? 


schaft U? 
Anteil P] P3 P3 
Für P,= O entspricht dieses Modell dem WARNER-Modell; P,= O er- 


gibt das SIMMONS-I-Modell. Die Schätzformeln werden analog denen 
für das SIMMONS-I-Modell abgeleitet. 

Im SIMMONS-I-Modell sind X und Z bernoulliverteilt: X:B(1,r), 
2:B(1,P). U besitze die (hier als bekannt angenommene) Vertei- 
lung: U:B(1,W¥). Y ist ebenfalls bernoulliverteilt B(1,A)) mit 


(3.54) A = Pr + (1-P)y 
Aus (3.54) erhält man den Momentenschätzer igs 
a 
(3.55) fy = EN mit å = 2 


Ty ist erwartungstreu; von der Varianz läßt sich Var Ta abspal- 


ten: 


(3.56) Var E = SSC = Km, + ne + ine? + a 


Die Varianz von np wird durch (3.57) erwartungstreu geschätzt: 


A (1-1) 


(3.57) Var 7 = 5 
(n-1)P 


Bei entsprechender Formulierung von A H und d läßt sich 


x,u’ Zz 2) 
das Modell als lineares Modell darstellen : 


1) Vgl. BOURKE (1974a, S.9ff.) und BOURKE/DALENIUS (1975, S.5f.). 


2) WARNER (1971, S.886), formuliert das lineare Modell ähnlich, 
jedoch umständlicher. 


= € = 


Die Erwartungswerte sind: 


E(X U) = (n y) E Z' = (P 1-P) e 


Das lineare Modell 


T 
(3.58) Yi = (P 1-P) 4 + U i = Tisch 
läßt sich überführen in 
Y: = xi B* + u: i = 1,...,n 
(3.59) * * %* * 
mit Yi = Yi = (1-P) s Ga = P £ B = 71, Ui = U; e 


Wie man leicht sieht, stimmt der KQ-Schatzer für m mit dem Momen- 
tenschätzer überein. 
Der ML-Schätzer ergibt sich, wie in den schon behandelten Mo- 


dellen, indem man an auf das Intervall [0,1] stutzt. 


M 
Im allgemeinen Stichprobenmodell ist der ERIKSSON-Ansatz für 
das SIMMONS-I-Modell nicht anwendbar, da sich keine erwartungs- 
1) 


treuen Schätzwerte x, für x, (ies) angeben lassen . Somit ist 


der Antwortvariablenansatz anzuwenden. 


Als Schätzwert für m ergibt sich: 


N N 
(3.60) T= wa mit X = > l W.Y, 


Die Varianz von à, aus der die Varianz von n abzuleiten ist, 


ermittelt man aus (2.42) 2), 


1) Vgl. ERIKSSON (1976a, S.13). 
2) Vgl. das ähnliche Vorgehen in ERIKSSON (1976a, S.14f.). 


= 75 = 


< _ 4 Ge SC 2 
Var h = -5 [var,( } W, (Px, +(1-P)u,) + A EW; P(1-P) (x,-u,)”]= 
N i=1 i=1 
1 .2 À 2 N 
==, [P var,( } W.x,) + (1-P) var,( } wu) + 
N KEN i=1 
(3.61) N N 
+ EE eg Ee + 
N 
+ P(1-P) } (x, -u,) 7EW?] e 
: i `i i 
i=1 
Somit erhält man die Varianz von ī: 
5 
Var 7 = Var 19 + Kel el as Var ya + 20-P) Cov (Tap) + 
2 d "d 
P P 
N 
{1-P) iV ee 
(3.62) 2, D (x,-u,)” EWS 


NP i=1 
Die Varianz in (3.62) wird erwartungstreu geschätzt durch: 


= 4187) + 4 oY wi 657) . 


P N ies 


(3.63) Var 7 


Da bei nur einer Frage je Befragten keine Schätzwerte af (ies) 


zur Verfügung stehen Gë entfällt das Zusatzglied, der Bias 


der Schätzung kann dann wie folgt abgeschätzt werden: 2) 
et Dias SC OI SO 
(3.64) NP 7 p2 ~ 


Fiir die einfache Stichprobe ohne Zuriicklegen erhalten wir 


folgende Ergebnisse: 


1) Bei mehreren - unabhängigen - Antworten je Befragten sind 
die Varianzen o: durch die Stichprobenvarianzen der Antwor- 
ten der einzelnen Befragten zu schätzen. 


2) N.B.:OS GE < P(1-P), i=1,..., N; daraus Abschätzung des 
Bias in (2.45). 


= Je = 


(3.65) 


3 
> 
| 
= 

j t 
= 
d 


(3.66) var 3 = Um , Nen , (1-P)? , AU) , N-n 


n N-1 p? n N-1 


3) 
+ 


2(1-P) (1-n) coctel 4 (1-P) 
nP (N-1) nP 


+ 


(n-27Ņ + di 


Für die Schätzung der Varianz können nur verzerrte Schätzfunktio- 
nen angegeben werden, wobei (Var 7), die Varianz Var 1 unter- 


schätzt, (Var dÉ dagegen überschätzt: 


È 2 
R S (1-7) 2 (x,-u,) 
(3.67) (Vär m), = aaa an Bias(Var dl Lä = 
P (n-1) N N“P 
P~ (n-1) (N-1)P 


Übersicht 3.4 : Das SIMMONS - I - Modell 


(Verteilung des Zusatzmerkmals bekannt) 


d Fragen- 


struktur Haben Sie die (sensitive) 


Eigenschaft A ? 


Haben Sie die (nicht 
sensitive) Eigen- 


schaft U ? (Z=0) 


2. Modell 


Untersuchungs- 


variable X alternatives Merkmal = {0,1} Pa B(1,T) 


alternatives Merkmal d {0,1} Pa B(1,W) Ņ bekannt 


optimierte Version (geringste Varianz bei vorgegebenem 
Protektionsgrad vgl. 3.5.3): 
Randomisie- 


rungs- = {0,1} 
variable Z 


Antwort- = {0,1} 
variable Y 


Abbildung T l xQ xR >R T(x,u,z) = xz + u(1-z) 
x u y y 


Verteilung B(1,A) PT + (1-P)y 
von Y 


Sg Schätzung 


Momenten- S A-(1-P)p 
methode P 


-TUT , 1 LUW , nm? + mem). 
n P P 


Erwartungs- 7 x 
treue e _ A(1-À) 

Schakzung der (n-1}P2 
Varianz 


4. Stichproben- 


theoretischer 


Ansatz 


Antwort- 
variablen- 
Ansatz 


Spezialfall: 
Stichprobe 
ohne 
Zurücklegen 


_ AA 
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e _ UM | Non, (1-P)? p(1-Ņ) N-n 


n N-1 p? n N-1 


+ ZAP Cov (x,u) + r; (n-2mV+Y) 


n P (N-1) n P 


N 


i=1 


2 
TE Wäi a-p) } (x,-u,) 


. — , Bias(Vart) = 
pP? (n-1) N À wi P 


a + +(1-P 


Si (n-1) E (N-1) p? 
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3.4.1.2 Das Unrelated-Question-Modell mit vorgegebenen 


Antworten 


Wie schon in den einleitenden Bemerkungen zum Unrelated-Quest- 
ion-Modell angedeutet, läßt sich durch die Aufforderungen, 'Ja' 
bzw. 'Nein' zu antworten, die neben der Frage nach dem Untersu- 
chungsmerkmal mit den Wahrscheinlichkeiten P, und P3 gegeben 
werden, ein zusätzliches Pseudomerkmal U erzeugen, das 

B(1,y = P,/(P,+P,)) verteilt ist ER Obgleich so wie im SIMMONS- 
I-Modell ein Zusatzmerkmal mit bekannter Verteilung gegeben ist, 
sind die in 3.4.1.1 angegebenen Formeln nur für den Fall einer 
unabhängigen Stichprobe (mit Zurücklegen) übertragbar, da das 
Pseudomerkmal nicht bei. den Stichprobeneinheiten angesiedelt ist. 
Dies wird in der Beschreibung des Modells deutlich. Dem alterna- 
tiven Untersuchungsmerkmal steht eine zweidimensionale Randomi- 
sierungsvariable gegenüber; beide sind folgendermaßen mit der 


Antwortvariablen verbunden: 


Auswahlwahr- 
scheinlich- 
keit Aufforderung 
ee 
wort- 
ih varia- 
an | EIER ble Y 


Y ist also über die folgende Abbildung T mit X und (2, ,2,) ver- 
knüpft: 


(3.69) Y = T(X,2,,2,) = Z,X + (1-2,)2, e 


1 
Y ist bernoulliverteilt : B(1,A) mit 


1) Dieses Modell geht auf R. MORTON zurück; vgl. HORVITZ et al. 
(1976, S.184). Es wird von ERIKSSON (1973, 1976a) ausführ- 
lich dargestellt. 
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(3.70) A = Pt + (1-P,)v e 


wobei P = B(1,1) 8 B(1,4) verteilt ist. 
GIE 
Gleichung (3.70) entspricht (3.54). Mutatis mutandibus ergeben 


O (p = Py/0-P,). 


sich für die Schätzungen aufgrund einer unabhängigen Zufalls- 
stichprobe die gleichen Ergebnisse wie für das SIMMONS-I-Modell; 
die Einzelheiten sind der Übersicht 3.5 zu entnehmen. 

Die Unterschiede kommen jedoch bei der Betrachtung im allgemei- 


nen Stichprobenmodell zum Tragen. 


Es läßt sich nämlich nach dem ERIKSSON-Ansatz ein erwartungs- 


treuer Schätzer x, für x, angeben: 


` ¥, = (1-P,)v 
(3.71) x, = "E ies 
r 


Für die Varianz des Schätzers ı = 


erhalten wir nach einigen Umformungen: 


S a 1 a y (1-4) 5 
(3.72)Var nf = Var 7 + 5 JL two + ——— + (1-2y)x J EWS. 


P,N i=1 P] 


Bei der Schätzung der Varianz geht man im allgemeinen von den 
Antwortvariablenwerten aus. Im Antwortvariablenansatz erhalten 


wir also mit 


N 
T = (A-(1-P,))/P, (R= )wY,/N 
| i=1 
ad 1-P 
~ ar- 8° (A) 1 2 , pUi-y) RER 
(3.73) Var EA 32 + > 2 RA + > + (1-24); ) Wig 


1 1 1 


Im Gegensatz zum SIMMONS-I-Modell kann also im Modell mit vorge- 
gebenen Antworten die Varianz des Schätzers af erwartungstreu 


geschätzt werden. 


Verwendet man für die Schätzung der Varianz von D lediglich 


1) Selbstverständlich lassen sich auch andere Verteilungen von 
(2,,2.) angeben, die mit dem Aufbau des Modells verträglich 
sind und nicht Unabhängigkeit von Z1 und 2, implizieren. 


- 81 - 


die Schätzfunktion für die Varianz der Antwortvariablen, so 
läßt sich die negative Verzerrung, die mit N>% gegen Null geht, 
folgendermaßen betragsmäßig nach oben abschätzen: 


1-P ` 
(3.74) Bias = {a < 1 1 
P 1-P 
1 2 (1-y) 
i ut dé Hä, yo ug 


1 1 


Für die einfache Stichprobe ohne Zurücklegen erhalten wir fol- 
gende Ergebnisse: 


A-(1-P,) 


` N 1 
(3.75) E — à= Jy, 
P] n jes t 
` w(1-T) N-n 1-P, y(1-y) 2 
(3.76) Var m = — a nP, Pre + "ill + (rbl! 
kA) Wen 1-P, ti O o ER 
(3.77) var 7 = e + [———— + r(1-m) + (sl! 


Übersicht 3.5: 


al Fragen- 
struktur 


2. Modell 
Untersuchungs- 
variable X 


Randomisie- 
rungs- 
variable 2 


Antwort- 
variable Y 


Abbildung T 


Verteilung 
von Y 


3. Schätzung 


Momenten- 
methode 
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Unrelated-Question-Modell mit vorgegebenen Antworten 


Auswahlwahr- 


Aufforderung scheinlichkeit 


Beantworten Sie die Frage: 


Haben Sie die Eigenschaft A ? 
(z = (1, 0) bzw. (1, 1)) 
Antworten Sie "dai ! 
se (O, 1) 
Antworten Sie ‘Nein’ ! 
z= (0, O) 


Pseudomerkmal U mit p:= 


alternatives Merkmal d = {0,1} B(1,1) 


j = 10,0) , (0,1), (1,0) 41,1) } B(1,P,) 


P 


a = {0,1} 


(x, Z 12) 72 x + (1-z,)z, 


1 1 


Pim + (1-P,)Ņ 


2 1 (1-1) 


1-P = 
+ e ee ; (n=)? + 1(1-7) ] 
n Py P4 


= 83 < 


Erwartungstreue 
Schätzung der 
Varianz 


4. Stichproben- 
theoretischer 


Ansatz 


ERIKSSON- 


Ansatz 
y(1-) 


P 


2 
+ (1-2y)x, JEAN. 


Antwort- 
variablen- 
ansatz 


Abschätzung 
des Bias 


Spezial- 
fall 
Stichprobe 
ohne Zurück- 
legen 


Vi 


gi 


+n (1-1) + (1-9) 7] 


1-P Wich, a 
[—— +n (1-7)+ (T-Y) ] 
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3.4.1.3 Das BOURKE-Modell 


Bei unbekannter Verteilung des Zusatzmerkmals und Verwendung nur einer 


Stichprobe sind zur Schätzung des Anteils der sensitiven Eigen- 
schaft im Unrelated-Question-Modell zwei Fragen je Befragten 
notwendig; zumindest ein Teil der Befragten muß sowohl die Fra- 
ge nach A/A und nach U/U beantworten. Die Reihenfolge der Fra- 
gen und ihre positive oder negative Formulierung werden durch 
den Randomisierungsmechanismus festgelegt, so daß die Vertrau- 
lichkeit gewahrt ist. BOURKE N 


aus folgender Kartenmischung besteht: 


schlägt ein Modell vor, das 


Kartentyp 1 Kartentyp 2 Kartentyp 3 Kartentyp 4 

1. Frage U | 

nach 
2. Frage A 

nach 
Anteile P: P, P3 Py 
Randomi- 
sierungs- (1 ‚0,0,0) (0,1 70,0) (0,0,1 Bei (0,0,0,1) 
variable 
(z, rZ,123,2,) 
Die zweidimensionale Antwortvariable Y = (ei: ) = Y,: Antwort auf 


die erste Frage, Yo: Antwort auf die zweite Frage - ist durch 
die folgende Zuordnung T mit den alternativen Merkmalen (X,U) ver- 
knüpft: 


T : Q + Q 


ku) z " Qu) = {0,1} x {0,1} 


a, te, =f (8) (9) (2) (1) 


Zi 
T(X,UrZ 1125023024) = | ) 
Y2 


1) Vgl. BOURKE (1974b, S.17-19). 
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Y] i U o U 
(3.78) = Z + Z + Z + Z 
Y, 1 U 2 X 3 U 4 1-X 
2,72; Z +2, X 2, 
= + 
2,72, 2, +2, U Zu 


Die Randverteilungen von Y, und Y, sind Bernoulliverteilungen 


1 2 
mit den Parametern d und Ay: 
d ké P tP} T P3 
(3.79) = + 
do Po-P, P,+P,/ \v Py 


Aus (3.79) lassen sich die Momentenschätzer Ty und Vu aufgrund 
der Anteile hy und ho der Ja-Antworten auf die 1. und 2. Frage 
in der Stichprobe angeben: 
=1 a 
TM P] P3 PotP, d P3 
(3.80) 7 = 
Y hu P4tP3/ aP, 


Bezeichnet man die in (3.80) zu invertierende Koeffizienten- 
matrix mit P, so erhält man die Varianz-Kovarianz-Matrix D der 


Schätzer folgendermaßen: 


TM = A, er 

(3.81) a =P D P 
YM 

Nach Ausführung der Matrizenoperationen ergeben sich dann die For- 


meln für T und die Varianz von Tu? 


a, U = o _ 5; _ 
(3.82) es = pl (Pub, P,) (P +P) (A, P,)] 


? ae: 2 -p2 -p2 
mit D: = P} + Py Po P3 
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EES 2 Eu _ 
(3.83) Var Ay = Ge [(P,+P,) A, A.) 2(P,+P,) (P,+P,) 11 AgrAg)+ 
+ (P,+P,) ŽA, (1-A3)] 
2 4 2 2 , z 


Eine Zerlegung in Stichprobenvarianz und Antwortvarianz ist nach 


(2.58) ebenfalls möglich: 


T T 
M -1 ` 
(3.84) D =D | + P E,D,(A)P 

d d 
Dabei sind md und pa die Schätzfunktionen bei direkter Befragung, 
E,D, (Å) ist der Erwartungswert der bedingten Varianz-Kovarianz- 
matrix der geschätzten Anteile der Antwortvariablen H und Yo: 

_ e ec ENEE 
(3.85) E,D,(A) = EJEJI ei A,-E,A, À TE Àn) [S] 
2 2 2 

Bezeichnet man die gemeinsame Verteilung von X und U mit Tigr 
i,j = 0,1, so gelten für die Elemente di von E,D,(A) folgende 


Beziehungen: 


nd P3 (1-P3) (Toot 44) + PRUI-PI Toit Tio? 
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(3.86) n d,,” nd,, = T41 (P1+P2 - (1-P,) (1-P,)) - T19P4P2 + 
+1, (Pz + P4 = (1-P{) (1-P3)) - Too?3P4 


nd P4 (1-P4) (Too + T41? + P,(1-P,) (1, + Tio? ` 


22° 


Die Antwortvarianz hängt also recht kompliziert von den Modell- 
Parametern und der Verteilung der Untersuchungsvariablen ab. 


Die Maximum-Likelihood-Schätzer sind - wie auch in anderen Model- 
len - die auf das Intervall [0,1] 'gestutzten' Momentenschätzer. 


Die Formulierung des vorliegenden Modells als lineares Modell 
ist bei Verwendung der folgenden Bezeichnungen möglich: 


ES Y,. -P = d 


* = = a i= 
Yi PB +U D(U;) = bo , i=l,...,n 


Diese Relationen lassen sich mit Verwendung des Kronecker-Pro- 
dukts (8) von Matrizen 1) für die gesamte Stichprobe zusammen- 


fassen: 
Wf? Lä kaye 
Y (x, vv oo?}7 Yi) 
ur = (Uj ses., UY)! 
Li: = 413.471) * 
* _ 
(3.87) Z = (P SJ Bt YU 


Für die Störterme in (3.87) gilt: 


E(U) =o 


E(UU') 


" 
m 
@ 


I 
fe) -n 


Es liegt also ein verallgemeinertes lineares Modell vor, für des- 
sen Parameter nach dem GAUSS-MARKOFF-AITKEN-Theorem die besten 


linearen unverzerrten Schätzer in (3.88) angegeben werden: 


1) Für das Kronecker-Produkt gelten folgende - hier verwandte - 


Rechenregeln: 
(A,A,)O(B Bo) = (A, Q B,) (A, 9 B,) 
(A @ B)' = Ai @ BS 
(aes) — Ales . 


Vgl. RAO (1973, S.29f.). 


- 88 = 


(3.88) 
_ | -1 erl * 
Beg 7 MIR @ LES @ TIP SLI MP OL) (so! e LY] 
u tt DE l goë? i * _ 
= [ap'z tp] esche t pxl = 
T 
n M 
= 1 p71 } = = 
os i=1 1 d 
1 M 


Die KQ-Schätzer sind also mit den Momenten-Schätzern auch in 


diesem Modell identisch. 


Im allgemeinen Stichprobenmodell lassen sich nach dem ERIKSSON- 
Ansatz folgende Schätzwerte für die Merkmalsausprägungen 


(x, uj) des i-ten Befragten angeben: 
x, 

i 1 7 S 

y* EI = X, ,i=1,...n 


(3.89) 2 ky SR, 


= P 


EI 
H 


u, 
i 


Für die erwartungstreuen Schätzfunktionen (77,7) gilt dann 


at l ` 
(3.90) = > } wok. 
=r à LES SS 
y 
mit der Varianz-Kovarianzmatrix 
ef E , ON 5 x, 
(3.91) D =D += A E,W, D,|. 
“r ~d N“ i= a u. 
y y 1 


Im Antwortvariablenansatz, der sich insbesondere wegen der rela- 
tiv einfachen Varianz-Kovarianz-Schätzung anbietet, ergeben sich 


folgende Formeln: 


T 8 Au, 
(3.92) | | = Pe |_ 
d CA 
T 
(3.93) D =p! pue! 
d 


Diese Varianz-Kovarianz-Matrix wird erwartungstreu geschätzt 


durch: 
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a 


SS T 
(3.94) D i. 
D 
hierbei sind pd A SCH BD, (Y; ) jeweils erwartungstreue Schätz- 
funktionen für e oe ) Be D,(x,). 
Die Anwendung der oben Pae tinea Formeln auf eine einfache 
Stichprobe ohne Zurücklegen führt zu den folgenden Formeln für 
die Schätzung des Anteils der sensitiven Eigenschaft A: 


-1'! 
5 P t Wed, (X) P ; 


taod 
N ies 157? 


= p lee! + 


nm wird durch (3.82) erwartungstreu geschätzt. Die Varianz von 
m kann nach (3.31) in die Stichproben- und die Antwortvarianz 
zerlegt werden: 


(3.95) 
=. Um , Nzn 1 2 r 
Var m = + 5 [(P,+P3) [P,(1 P3) Iran + 


n N-1 n D 


+ 


gd ARZUKMTMW EU (P +P)" [Pi (1-Py) in tn) + 


+ 


Po (1-P5) (15447 EL = 2(P,+P3) (P,+P,) Im, ,(P,+P,) 


10 


- (1-P3) (1-P,)) = T19P Po + To1 (P3tPy- (1-P,) (1-P,)) =- 


TooP3P 4]! 


Ersetzt man bei der Schätzung von Var 1 in der Formel (3.86) 
die Lambdas durch die Schätzwerte aus der Stichprobe und be- 
rücksichtigt man den Korrekturfaktor (N-n)/N, so erhält man 
eine verzerrte Schätzung. Die Verzerrung strebt für N>» gegen 


Null. 


Übersicht 3.6: Das BOURKE- Modell. 
(Verteilung des Zusatzmerkmals unbekannt) 


Auswahl- 


1. F = 
zagen wahrschein- 
struktur lichkeit 


Haben Sie Haben Sie 
Eigenschaft ? Eigenschaft U ? 


Haben Sie Haben Sie 
Eigenschaft ? Eigenschaft A ? 


Haben Sie Haben Sie 
Eigenschaft ? Eigenschaft U ? 


Haben Sie Haben Sie _ 
Eigenschaft ? Eigenschaft A ? 


2. Modell 


Untersu- alternatives 


variable X ON. 


Zusatz- alternatives o = {0,1} U:B(1,%) 


variable U Merkmal 


Randomi- 
sierungs- : i S E(Z.) = i E(2, 2.) =Oi + j 
variable Z 1 1 J 


Antwort- 
variable Y 


Abbil- 
dung 


(" 
((x,u), (2,7... eZ) 7 


Verteilung Randverteilungen 
von Y 


: B(1,A,) 


: BIL A. 


3. Schätzung 


Momenten- 
methode 


4. Stichpro- 


bentheoreti- 
scher Ansatz 


ERIKSSON- 
Ansatz 


Antwort- 
variablen- 
Ansatz 


-1 = =.‘ 
( } w, D, (¥.))P 
ies iS-2 —i 


1 x a 

fi = — [(P,+ P.) (A, - P.)-(P. + P,) (A, - P,)] 
Spezialfall: D 1 3 1 3 2 4 2 4 
Stichprobe mit D : = p? + p? - p2-p? 
ohne 1 4 2 3 
Zurücklegen 5 

e „ T(1-7) . N-n 1 8 

Var f = ———— - — + 5 [(P, +P) [P,(1 P3) (Mottin? + 
n N-1 n D 


2 
+ P,(1-P,) Dou to] + (P,+P,) [P -P Moot? + 


+ P,(1-P,) (m +7, 5) J- 2(P, +P.) (P,+P,) [T] (P,+P,) 


= (1-P,) (1-P,))-™, Py Baren (Baar (P) (Ball Mee af Al 
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3.4.2 Zwei-Stichproben-Modelle 


3.4.2.1 Das SIMMONS-II-Modell 


wählt man die Fragenkonstellation wie im einfachen SIMMONS-I- 
Modell,so sind bei unbekannter Verteilung des Zusatzmerkmals 
zwei Stichproben mit den Umfängen Di und n, mit unterschiedli- 
chen Auswahlwahrscheinlichkeiten (Pj P3) der beiden Fragen zu 


1) 


ziehen . Für jede der beiden Stichproben gelten für die Ant- 


wortvariablen die gleichen Formeln wie im SIMMONS-I-Modell. 


Aus den Gleichungen (3.96) lassen sich die Momentenschätzer für 
m und y (3.97) ermitteln. 


Au = Pan + (1-P,)y 


(3.96) . P.+ P 


> Pom + (1-P,) Y 


> 
H 


F A, (1-P5)-A, (1-P]) 


M ké 
(3.97) S ` 

e ae 

M Pı-P, 


Die Schätzer T 
die beiden Stichproben unabhängig voneinander gezogen werden, 


vw und di sind also Linearkombinationen von dy und 


den Anteilen der Ja-Antworten in den beiden Stichproben. Da 


gilt für die Varianzen: 


` 1 Ges ee do (1-25) 
yart ee ee i EE 
MT 2 i 1 j 
17P2 1 2 
er 1 a 4 DA > à (1-45) 
Ver dioa See E E a eh 
M (P, -P E S n 1 n 
17P2 1 2 


1) Vgl. HORVITZ et al. (1967, S.67ff.) u. GREENBERG et al. 
(1969a). SKARABIS (1976, S.267ff.) entwickelt dasselbe 
Modell. 
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Die ML-Schätzer sind wiederum die auf [0,1] 'gestutzten' Momen- 


tenschätzer. 


Faßt man die linearen Modelle - wie für das SIMMONS-I-Modell 
formuliert - der beiden Stichproben zusammen, so ergeben sich 
nach einigen Umformungen die Momentenschätzer aus (3.97). Hier- 
mit sind auch wesentliche Optimalitätseigenschaften dieser Schät- 


zer gezeigt. 


Im allgemeinen Stichprobenmodell (Antwortvariablenansatz) wird 
zur Schätzung und Varianzermittlung ebenfalls von (3.97) ausge- 


gangen. 


Die Stichprobenvarianz von nm erhalten wir dann in (3.99), wobei 


wir (3.61) teilweise verwenden. 


(1-P,)2 
(3.99) Var En eo 2 DB var 4° ÜBTE 

7-2 > Fa 1 1 1 

(P,-P,) 

~ad -d 
+ 2P,(1-P,) Coin: ef: 
2 
(1-P,) 
1 2 ad 2 -d na 2d ad 
eee [P Var] 1. + (1-P,) Vary. + 2P,(1-P,) Cov(t5+¥5)] 

(P,-P,) 


Die Antwortvarianz ist 


2 
(1-P,) P,(1-P,) N 


& 22 
E, Nat H = — 2 1 (x.-u.) EW. + 
1 2 (P.-P ‚2 n2 isq i i Vi 
1 2 
1 2 2 22 
ü 2 2 L (x,-u,) EM, 
(P,-P,) N i=1 


Die Varianz von 1 ergibt sich durch Addition von (3.99) und 
(3.100). 
Bei der erwartungstreuen Schätzung der Varianz ist folgender- 


maBen vorzugehen: 


(3.101) var #= —1_, ((1-P,)*var i, + (1-P,) Vår A 
(PP 1 


2) 
mit 


ER ( 
(3.102) Var di = u SC 


Da bei nur einem (Fragen-)Versuch je Befragten kein Schätzwert 
für se verfügbar ist, wird der zweite Ausdruck in (3.102) bei 
der Varianzschätzung vernachlässigt; hieraus ergibt sich eine 


systematische Unterschätzung, die sich nach (3.103) abschätzen 
läßt: 
ei 
+.) 6, SOS 1,2. 


(3.103) E(var i, - te 
l 1 13) N 


(A.) 1 N 2 P.(1-P,) 
n. 2 l 


i N j 


In einfachen Stichproben ohne Zurücklegen sind die Schätzer für 


q und y die gleichen; es ergeben sich folgende Formeln für die 
1) 


Varianzausdrücke: 
` 1 P*(1-P,)* N-n, 
(3.104) Var 1 = oe 1(1-17) [ = + 
(P,-P.) 1 N-1 
1 2 
2 2 2 
P-(1-P,) N-n P, (1-P,) (1-P.) 
+ Se Beer ee De E 2 ,; 
no N-1 n, 
P,(1-P,) (1-P,)° (1-P,)?(1-P,)? Neon, 
+] + y 1- I + 
No n, N-1 
(1-P,)7(1-P,)? N-n, P,(1-P,) (1-P,)? 
eet o H 
n, N-1 Di 
P,(1-P,) (1-P,)? > P,(1-P,) (1-P,)? 
a eg (m=) ie an = 
2 1 


P,(1-P,) (1-P,)? 
+ ———__+~_______] + 2 Cov(x,u) I = 
2 1 
2 
. P,(1-P,) (1-P,) . 1-n, 
N-1 n, N-1 
1) Vgl. auch die entsprechende Formel bei KIM/FLUECK(1978b, S.349), 


die allerdings Unkorreliertheit von X und U voraussetzen. 


2 
(1-P,) P,(1-P,) 
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Zur Schätzung der Varianz stehen zwei verzerrte Schätzfunktio- 


nen (Var n), und (Var dÉ zur Verfügung . 


(3.105) (var #), = —— [(1-P,)? 1 1 E 
(P,-P.) n,-1 N 
RER Ào (1-3) N-n, 
1 n_-1 N 
2 
mit 
l EEE ae (P,-2P,P,+P,) (1-P,)(1-P,) N 2 
Bias (Var mh = ee een (x,-u,) P 
17P2 
1 (EG Set, Kb 
EE EE E E KE lapp ee 
2 (P,-P Kë 2 n,-1 ! n,-1 
17P2 1 2 
mit 
Bias (var #), = ——— [(1-P Var (P,X+(1-P,)U) + 


(N-1) (P,-P,) 


Var (P,X + (1-P,)U)] 


Die Formeln für den Fall mit Zurücklegen ergeben sich aus 
(3.104), (3.105) und (3.106) durch den Grenzübergang Nues, 


Bei der Varianzzerlegung entfallen die Kovarianzglieder, außer- 
dem läßt sich die Schätzervarianz erwartungstreu schätzen: 


: 1 P (1-P,)? BD 
(3.107) Var îy gt nt le 


M 
(P,-P,) d 


2 1 
a EL HEILEN Er + 


P.(1-P,)  P,(1-P,) 
pi 222, 4.2 105) 


déi Da 


+ (1-P,) (1-P,) (r=)? 


1) Vgl. Formeln (2.49) und (2.51). 
2) Vgl. ERIKSSON (1973, S.104). 
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(3.108) Var fv E 2 [(1-P.) SS Se 
1 2 1 

Gegenüber dem einfachen SIMMONS-I-Modell sind beim Zwei-Stichpro- 

ben-Modell zusätzlich die Aufteilung des Gesamtstichprobenum- 

fangs n und der Wert von P, zu bestimmen. Soweit es sich bei Po 

um die Entscheidung handelt, ob ein positiver Wert zu wählen ist 

oder ob die zweite Stichprobe nur zur direkten Erhebung des Zu- 

satzmerkmals verwendet werden soll, kann man davon ausgehen, daß 

die Bestimmung von P, und n,/n, keinerlei Einfluß auf das Antwort- 


verhalten der Befragten hat. 


Zur Bestimmung der optimalen Aufteilung der Stichprobenumfänge 
geht man von (3.98) aus und bestimmt das Minimum bzgl. n, und 
no bei Beachtung der Nebenbedingung ntn, =n. Die optimale Auf- 
teilung ist in (3.109) angegeben 3 wobei zu berücksichtigen 


ist, daß d und A, in Anwendungsfällen zu schätzen sind: 

n, àj (1-14) =P)? 
(3.109) - = e EEE, 

2’opt ho (1-r5) Ak ZU 
Bei optimaler Aufteilung vereinfacht sich die Formel für die Va- 
' 2 2) 
rianz des Schätzers: 
SÉ am o ven + I eet es Ek 
= z 1 2 2 2 1 1 
(3.110) (Var Th omone, ea on 
EE E nirp) 


Bei der Bestimmung der optimalen Wahl von GER ist von der partiel- 
len Ableitung der Formel (3.98) auszugehen: 


9 Var T 1-P 2/,(1-X,) (1-P.) (A.+i_-2,X,) (1-P,) 
(3.111) _ m es 1 2 a i 2 1°2 Vy 
d P, dd éi n, n, 


1) Vgl. GREENBERG et al. (1969a, S.528). 
2) Vgl. MOORS (1971, S.628). 
3) Vgl. GREENBERG et al. (1969a, S.526). 


Übersicht 3.7: Das SIMMONS-II-Modell (optimierte Version) 


Stichprobe 1 


Stichprobe 2 


2. Modell 


Antwort- 
variable Y 


optimale 
Aufteilung 


3. Schät- 


zun 


Momenten- 
methode 


erwartungs- 
treue Schät- 
zung der 
Varianz 


(Verteilung des Zusatzmerkmals unbekannt) 


Haben Sie die (sensitive) 
Eigenschaft A ? 


Haben Sie die (nicht- 
sensitive) Eigenschaft U ? 


Haben Sie die (nicht- direkte 
sensitive) Eigenschaft U ? Frage 
Für Stichprobe 1 wie im SIMMONS-I Modell 
Stichprobe 1 : Y : B(1,A,) 

Stichprobe 2 : Y : B(1,A,) 


PT + dd 


Y 


n, A, AA) 
(n opt ` ALG-A,)-P.)? 
2 2 1 
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4. Stichproben- 


theoretischer 
Ansatz 


[pt Var ac 


2 d ad -d 
SS (1-P,) var) +2P, (1-P,) (Cov (T, „u )] 


=e H Se 2 $ 
= (Vär A, + (1 P,) Var A,) 


Spezialfall: 
Stichprobe 
ohne 
Zurücklegen 


A,(1-A,) N-n 


n, N-1 


] 


2 
(1-P,) ) (x,-u,) 


i=1 


2 


N P| 


Var(P,X + (1-P,)U) 


Bias (Var n), 


Bias (Var T), = 


2 
(N-1)P, 
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GREENBERG et al. (1969a) kommen zur Empfehlung, P, = 1-P, zu wah- 
len. Bei der Auswertung von (3.114) beachten sie jedoch nicht, 


daß man o.B.d.A. P4? P3 annehmen kann. 


Im gegengesetzten Fall bringt eine Vertauschung der Stichproben 
die angegebene Voraussetzung. Demnach ist 9 Var n/aP, für 

P, < P] <1 immer positiv; somit wird für P,= O das Minimum ange- 
nommen, da P, nicht negativ ist. 

In der zweiten Stichprobe ist also eine direkte Befragung nach 
dem Zusatzmerkmal durchzuführen. Dieses Ergebnis geht auf MOORS 
zurück Ih: 

In der Übersicht 3.7 sind die Formeln nur für das optimale Mo- 


dell mit P,= O aufgeführt. 


3.4.2.2 Das FOLSOM-Modell 


Wie im vorangegangenen Abschnitt dargestellt wurde, ist es im 
SIMMONS-II-Modell optimal,in einer Stichprobe das Unrelated- 
Question-Modell wie im SIMMONS-I-Modell anzuwenden, in der an- 
deren das Zusatzmerkmal, dessen Verteilung unbekannt ist, direkt 


zu erfragen. FOLSOM et al. schlagen nun eine 'verschrankte' Kom- 


bination zweier optimierter SIMMONS-II-Modelle vor:?) 
Stichprobe 1 Stichprobe 2 
Random. Frage (A, U.) oni 
(Auswahlwkt. P) "1 E, 
EE l 
Stichproben- = EN 
umfang 1 2 


1) MOORS (1971, S.629) geht bei seiner Ableitung jedoch von 
optimal aufgeteilten Stichproben aus. 


2) Vgl. FOLSOM et al. (1973). 
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Wie aus der Abbildung ersichtlich, werden zwei Zusatzmerkmale 


U, und U, verwandt. Die jeweils eingerahmten Fragekombinationen 


konstituieren ein - bzgl. P 


2 optimiertes - SIMMONS-II- Modell 


Für jedes dieser Modelle läßt sich -aus (3.97) mit P,= O - ein 


Schätzwert für 1 ermitteln. 


(1) 


(3.112) 8 
wT (2) 


In den Klammern sind 


1) 

he (1)-(1-P)ÎÂ 
P 

A, (2)-(1-P)A 
= . 


jeweils die Stichproben, als Indices die 


1 (2) 


‚m 


beiden Fragen angegeben; man beachte: Ä ‚m = v,0) und 


A „(2) = y, (2). Durch eine varianzminimale Linearkombination 


der beiden Schätzer 1(1) und (2) läßt sich ein Schätzer m an- 


geben, dessen Varianz höchstens genauso groß ist wie die von 


n(1) bzw. n(2): 


(3.113) T 


= wr(l) + (1-w) (2) 


Gesucht ist also das Gewicht W, das die Varianz von 7 minimiert. 


Ausgehend von 


(3.114) Var 1 = 


(3.115) w = 


Die Formeln für 


(3.114) erhält man die Formel für w 


Var n(1) + Var q(2) 


Var 7(1) 


2). 


w? Var 7 (1) + (1-w) Var m (2) +2w(1-w) Cov (™(1) ,7(2)) 


Var (2) - Cov(7(1),7(2)) 
- 2 Cov(7(1) ,7(2)) 


und Var 7(2) sind durch (3.98) mit 


P,= O gegeben, für die Kovarianz gilt: 
a a _ -(1-P) e = 
(3.116) Cov(n(1),7(2)) = eg [Cov (àq (1) A, (1)) + 
+ Cov(X, (2) 4, (2))) 
` - (1-P) Fa ae . 
2 
P ny 
Au f2d-a, , 129° 4 (2) 
4 Em nn 8] 
m5 
1) Vgl. FOLSOM et al. (1973, S.526). 
2) Vgl. FOLSOM et al. (1973, S.527). 
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Durch Einsetzen von w in (3.114) ergibt sich die Varianz für den 


optimalen Schätzer 


(3.117) Var} , = Var ftl)var #(2) - cov. i2 ° 


DPE var HN) + Var SI) - 2 Cov(i(1),7(2)) 


Bei Anwendungen sind die Varianzen und Kovarianzen in (3.115), 
(3.117) aus den Stichproben zu schätzen. 


Für das beim SIMMONS-II-Modell angesprochene Optimierungspro- 
blem, die Bestimmung der optimalen Aufteilung, sind hier keine 
‘einfachen' Formeln anzugeben. Numerische Berechnungen für Bei- 
spiele lassen zwei gleich große Stichproben vorteilhaft erschei- 


nen. u 


1) Vgl. FOLSOM et al. (1973, 8.527). 
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Übersicht 3.8: Das FOLSOM - Modell 


1. Fragen- Randomisierte Frage 
Auswahlwahr- 


struktur 
—— scheinlichkeit 


Haben Sie die (sensitive) Haben Sie die 
Eigenschaft A ? (nicht-sensitive) 


Haben Sie die (nicht- Eigenschaft 


sensitive )Eigenschaft U ? 


Haben Sie die (sensitive) Haben Sie die 
Eigenschaft A ? (nicht-sensitive) 


Haben Sie die (nicht- Eigenschaft 


sensitive)Eigenschaft U, ? U, ? 


Ein alternatives (sensitives) Untersuchungsmerkmal. 
Zwei alternative (nicht-sensitive) Zusatzmerkmale. 
Das FOLSOM-Modell besteht aus zwei verschränkten 
SIMMONS-II-Modellen 

mit Po =O. 

Aufteilung: 


Für jedes dieser SIMMONS-II-Modelle wird ein Schatzwert ff (i) 
ermittelt j 1,2 : 


(1)-(1-PJÄ 1 (2) 
P b 
Var dy (1) +(1-P) “var A 2) 
2 


P 


A, (2)-(1-P)À | 1) 


10) 
Var n(i) 
dE S 


Var A (2)+(1-P) Var À vU) 


p? 


Var 7 (2) 


Gewogener wr(1) + (1-w) #(2) 
Schätzer 2 2. x 8 
w Varp(1)+(1-w) Varn(2)+2w(1-w)Cov(n(1) (äi) 


Var 7(2) - Cov (oi, T(2)) 
var all + Var säi - 2Cov(n(1),n(2)) 


var n(1)-var 1(2) - Cov(n(1) ,n(2))2 
Var mill + Var n(2) - 2Cov(n(1) ,ı(2)) 
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3.5 VERGLEICH DER MODELLE 


Nachdem in den Abschnitten 3.1 bis 3.4 mehrere Modelle zur Schät- 
zung eines Anteils vorgestellt wurden, erhebt sich insbesondere 

für Anwendungen die Frage, welches Modell in einer bestimmten 
Situation zu wählen ist. 

Als Entscheidungskriterium verwenden wir - wie üblich - die Schätz- 
genauigkeit, gemessen durch den mean square error, der aus den 
beiden Bestandteilen Varianz und Bias besteht. 

Der mean square error wird u.a. bestimmt durch die Parameter der 
Grundgesamtheit, den Stichprobenumfang, die Parameter des RRT-Mo- 
dells und die Antwortbereitschaft der Befragten. 


Ein Vergleich von RRT-Modellen müßte zumindest alle diese Ein- 
flußfaktoren berücksichtigen. Dies ist jedoch nicht möglich, da 
zwischen den Modell-Parametern und der Antwortbereitschaft Zusam- 


menhänge bestehen, die nicht genau zu spezifizieren sind. 


Somit bleiben für den Vergleich nur zwei Möglichkeiten. 

Zum einen kann man - unter möglichst plausiblen Annahmen - davon 
ausgehen, daß zwischen charakteristischen Größen des RRT-Modells - 
bspw. dem 'Protektionsgrad' - und der Antwortbereitschaft ein für 
alle Modelle gleicher Zusammenhang besteht. In diesem Fall kann 
man sich auf Varianzvergleiche bei gleichem Wert der charakteristi- 
schen Kenngrößen beschränken; dieser Weg wird in den Abschnitten 


3.5.1 bis 3.5.3 begangen. 


Zum anderen ist es möglich, die Antwortbereitschaft explizit zu 
berücksichtigen, indem man für unterschiedliche Konstellationen 
der Antwortbereitschaft bei den zu vergleichenden Modellen Effi- 
zienzvergleiche vornimmt. Über den Zusammenhang zwischen Modell- 
Parameter und Antwortbereitschaft kann man dann anhand von Vorin- 
formationen oder Schätzungen in konkreten Anwendungsfällen ent- 
scheiden, ob man die RRT überhaupt sinnvollerweise anwenden sollte 
und wenn ja, welches Modell zu wählen ist. Dieses Vorgehen wird in 
3.5.4 dargestellt und anhand von Modellrechnungen und Graphiken 


erläutert. 
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3.5.1Model1-Vergleich aufgrund 
gleicher Auswahlwahrschein- 


lichkeit der sensitiven Frage 


Bei der Betrachtung der Modelle vom WARNER-Typ und der Unrelat- 


ed-Question-Modelle (SIMMONS-I/II-, FOLSOM-Modell) erscheint 


es naheliegend, Vergleiche aufgrund gleicher Auswahlwahrschein- 


lichkeit P vorzunehmen. Entscheidend für die Varianzvergleiche 
ist die Zusatzvarianz des Schätzers 1, d.h. seine Gesamtva- 


rianz abzüglich der Varianz, die bei direkter Befragung auf- 


tritt. Da in allen Varianzformeln der Faktor 1/n auftritt, kann 


er bei Vergleichen vernachlässigt werden. 


Um zu möglichst allgemein, d.h. etwa für alle 1,/e[O,1] gelten- 


den Aussagen zu kommen, ist es notwendig, die Extrema der Zu- 


satzvarianzen bez. (1,4)e[O,1] x [0,1] zu bestimmen. 


Für das SIMMONS-I-Modell gilt für die Zusatzvarianz vr: 1) 


Se O<Ps1/2 
+ 4 p? 
(3.118) SIMMONS-I-M.: max = = 
mine] Jh 1/2<P<1 
ri 1P T TS1/2 
(3.119) SIMMONS-I-M.: min V = 
EE 1E (1-7) n>1/2 


Das Minimum von V* wird - bei vorgegebenem m - bei y = O bzw. 


y = 1 für m < 1/2 bzw. n > 1/2 angenommen. 


Im SIMMONS-II-Modell gelten für die optimierte Form (P, = O, 
optimale Aufteilung) mit P, = :P folgende Formeln für die 


Extrema von vr: 2) 


1) Vgl. zur Ableitung DOWLING/SHACHTMAN (1975, S.85). 
2) Vgl. zur Ableitung DOWLING/SHACHTMAN (1975, S.86).. 
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(3.120) SIMMONS-II-M.: max V? = E 
(n,v)e [0,1]? P 


Für das Minimum von V* erhalten wir das gleiche Ergebnis wie im 
SIMMONS-I-Modell: 
1-P 


= T T<1/2 


(3.121) SIMMONS-II-M.: min V* = 
ye [0,1] 1P (d-n) weii? 
Beim FOLSOM-Modell muß man von folgenden vereinfachenden Annah- 


men ausgehen, um sinnvolle Vergleiche anstellen zu können: 


Die beiden Zusatzmerkmale U, und U, haben die gleiche Vertei- 
lung, (Ok Y3 =; Ņ, und sind unabhängig voneinander. Außerdem 
seien die beiden Unterstichproben gleich groß, d.h. n,= n= :n. 


Als optimales Gewicht ergibt sich dann w = 1/2. 


Mit A:= d (1) gilt dann für die Varianz des Schätzers (3.113) In 


2 
(3.122) FOLSOM-M.: Var 7, = Auen ` wel 
P n P n P 


y (1-4). 


Die Schätzervarianz ist also um den zweiten Summanden größer als 
beim SIMMONS-I-Modell. Somit gilt für die Zusatzvarianz (n=1): 


(3.123) FOLSOM-M.: VI = == EE L (n-y) 7 + n(1-7)] 


Wie im SIMMONS-I-Modell lassen sich Maximum und Minimum von vr 


bestimmen: 2 
P -4P+4 P<2/3 
(3.124) FOLSOM-M.: max v = 8P 
P 
R Wee T n<1/2 
(3.125) FOLSOM-M.: min V = 
> (1-1) 121/2 


1) Vgl. FOLSOM et al. (1973, S.527). 
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Im WARNER-Modell und seinen Multiple-Trial-Versionen - wir ver- 
wenden hier die Binomialversion - sind die Zusatzvarianzen von 


m unabhängig: 


(3.126) | WARNER-Modell: y = ROL 
(2P-1) 

(3.127) WARNER-Modell: y = ir, 
(Binomialversion) m(2P-1) 


Vergleicht man die Unrelated-Question-Modelle untereinander - 
jeweils das gleiche Zusatzmerkmal vorausgesetzt - so ist die Va- 
rianz des SIMMONS-I-Modells geringer als die des FOLSOM-Modells, 
dessen Varianz seinerseits unter der des SIMMONS-II-Modells 


liegt. 


Ist die Verteilung des Zusatzmerkmals bekannt, wird man das 
SIMMONS-I-Modell anwenden; ist sie nicht bekannt und möchte man 
nicht mit vorgegebenen Antworten arbeiten, ist also das FOLSOM- 


Modell anzuwenden. 


Sucht man einen Wertebereich für P, in dem die WARNER-Modelle 
eine geringere Varianz aufweisen als die Unrelated-Question-Mo- 
delle,so sind die Zusatzvarianzen der WARNER-Modelle mit der mi- 
nimalen Zusatzvarianz der Unrelated-Question-Modelle zu verglei- 
chen. Wir erhalten folgende Ergebnisse: 

Das WARNER-Modell hat unter der Bedingung (3.128) 


(3.128) p? - y(2P-1)? <O ; y = min(1,1-7) 


eine geringere Varianz als die Unrelated-Question-Modelle. 
Die Binomialversion des WARNER-Modells hat unter der Bedingung 
(3.129): 


(3.129) p? - my (2P-1) ?<o ; y = min(mI-nm) 


eine geringere Varianz als die Unrelated-Question-Modelle. 


Die Tabelle 3.1 zeigt, daß das einfache WARNER-Modell nur für - 


- 107 = 


unrealistisch - niedrige Werte von P eine geringere Varianz als 
die Unrelated-Question-Modelle hat. Wählt man jedoch die Anzahl 
der Versuche im Multiple-Trial-Modell groß genug, so ergeben sich 
recht realistische Werte, die P überschreiten muß, damit das 
WARNER-Modell effizienter als die Unrelated-Question- Modelle 
ist: 


Tabelle 3.1: Kritische Werte De für P, so daß das 
WARNER-Modell für P<P, bzw. P>P_ eine 
geringere Varianz als ein Unrelated- 
Question-Modell hat. 


0.95 0.9 0.8 0.7 0.6 0.5 


0.05 0.1 0.2 0.3 0.4 
I 


Einfaches 0.194 0.236 0.261 
WARNER- 
Modell 1.0 1.0 1.0 


Multiple m=5 P 0.293 0,333 0,355 
Trial- a l 

Versionen P 1.0 1.0 0.845 
des m=10 B 

WARNER- u 
Modells 


0.333 0.369 0.388 


Po 1.0 0.773 0.703 


Will man demgegenüber Bedingungen für die Vorteilhaftigkeit der 
Unrelated-Question-Modelle gegenüber den WARNER-Modellen angeben, 
so hat man von ihrem maximalen Zusatzvarianzen auszugehen. Der 


Vergleich der Zusatzvarianzen führt zu folgenden Ergebnissen: 


Für P>0.339 hat das SIMMONS-I-Modell eine kleinere Schätzer- 
varianz als das WARNER-Modell .!? 


Für P>O.382 hat das SIMMONS-II-Modell eine kleinere Schätzerva- 
rianz als das WARNER-Modell 2), 
1) vgl. Ableitung und Ergebnis in DOWLING/SHACHTMAN (1975, S.85). 


2) Vgl. Ableitung und Ergebnis in DOWLING/SHACHTMAN (1975, S.86). 
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Für P>O.354 hat das FOLSOM-Modell eine kleinere Schätzervarianz 
1) 


als das WARNER-Modell è 

Grob gesprochen heißt dies, daß für P>0.4 - also in allen reali- 
stischen Fällen - die Unrelated-Question-Modelle geringere Vari- 
anzen als das WARNER-Modell haben. 


Abschließend wollen wir die Bereiche für P bestimmen, in denen 
die Unrelated-Question-Modelle eine geringere Schätzervarianz 
aufweisen als die m-Trial-Version des WARNER-Modells. Man macht 
sich leicht klar, daß sich dieser Bereich für sehr große m immer 


stärker um P = 1/2 konzentriert. 


Aus den Vergleichen der Zusatzvarianzen erhalten wir folgende Er- 
gebnisse: 
Das SIMMONS-I-Modell hat unter der Bedingung (3.130) 


(3.130) m(2P-1)2 - 4P°(1-P) <O i 0<Ps1/2 


m(2P-1)7 - P? <0 ; 1/2<P<1 


eine geringere Varianz als die m-Trial-Version des WARNER-Modells. 


Das FOLSOM-Modell hat unter der Bedingung (3.131) 


(3.131) m(2P-1)2 (P2-4P+4) -8P°(1-P)<O ; O<Ps2/3 


m(2P-1) 7 -p° <O ; 2/3<P<1 


eine geringere Varianz als die m-Trial-Version des WARNER-Modells. 


Das SIMMONS-II-Modell hat unter der Bedingung (3.132) 


(3.132) m(2P-1)2 -p° <o 


eine geringere Varianz als die m-Trial-Version des WARNER-Modells. 


1) Vgl. das Ergebnis bei LANKE (1976, S.201), das man durch 
numerische Bestimmung der Nullstellen eines Polynoms 4.Gra- 
des erhält, das die Gleichheit der Zusatzvarianzen wieder- 
gibt. 
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In der Tabelle 3.2 sind für m = 5,10 die Intervalle (PP) 
aufgeführt, in denen die Unrelated-Question-Modelle eine ge- 
ringere Varianz als das m-Trial-WARNER-Modell haben. 

Tabelle 3.2: Intervalle Pe (PP) für die das 
Unrelated-Question-Modell eine geringere 
Varianz als ein m-trial WARNER-Modell hat. 


Modell SIMMONS-I FOLSOM SIMMONS-II 
i a Fo | a Fo a Fo 
ee 


0.410 0.644 0.418 0.644 0.436 0.605 
0.432 0.594 0.438 0.593 0.452 0.568 


Die Ergebnisse dieses Abschnitts sind in der Übersicht 3.9 zu- 


sammengefaßt. 


Übersicht 3.9: Formaler Vergleich von RRT-Modellen aufgrund gleicher 


Auswahlwahrscheinlichkeit P für die sensitive Frage 


SIMMONS-II FOLSOM 


WARNER Modell Modell SIMMONS-I- m-Trial 
Modell (optimale dfwéi Modell WARNER- 
i U, 0 
Version) Poa y Modell 


p*-y(2Pp-1)2<o | P?-y(2P-1)?<o | Pĉ-y(2P-1)?<0 
y beliebig Ņ beliebig Y beliebig 


y:= min(1,1-17) | y: =min(1,1-7) y:= min(1,1-7) 


Du m 


9 Fr 


Modell unmöglich 


m(2P-1) 2-p?<o 


TY 
beliebig 


| SIMMONS-II- 
Modell 

(Optimale 

Version 


P>0.382 


T,W 
beliebig 


FOLSOM- 


m(2P-1) *(p7-4p+4) - 


Modell 3 

=) = -8P (1-P)<O 
(vızv,=: p | P>0.354 O<PS2/3 
U,,U, unabh. KIK m(2P-1)2-p2<o 
u,=u,=u/2) beliebig 2/3<P<1 


"el beliebig 


p?-nr (2P-1)2<o 
Ņ beliebig 


SIMMONS-I- | P>0.339 m(2P-1)?-4P° (1-P)<o 
Modell rel eh beliebig T,y beliebig O<Ps<1/2 
beliebi m(2P-1) 7-p*<0 
2 1/2<P<1 
Teil beliebig 
beliebig 
2 2 
P” -mr (2P-1) <0 
Ņ beliebig 


m-Trial m>1 p*-mn (2P-1) 2<o 
WARNER-M. tm belieb. |y beliebig 


- DEE = 
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3.5.2Model1lvergleich aufgrund glei- 
cher bedingter Verteilung der 
Untersuchungsvariablen bez. der 
Antwortvariablen 


Résumiert man die Ergebnisse des vorangegangenen Abschnitts, so 
mag das ‘gute Abschneiden' der Unrelated-Question-Modelle gegen- 
über den WARNER-Modellen etwas verwundern. Diese Vergleiche sind 
jedoch problematisch, da sie ja voraussetzen, daB das Antwortver- 
halten von der Auswahlwahrscheinlichkeit P bei den zu vergleichen- 
den Modellen in gleichem Ausmaß beeinflußt wird. Der Grundidee 
des RRT entsprechend sollte jedoch die Vertraulichkeit der Ant- 
wort die Antwortbereitschaft entscheidend beeinflussen. Entschei- 
dend für die Vertraulichkeit ist jedoch sicherlich, inwieweit man 
aus einer Antwort auf den tatsächlichen Zustand rückschließen 
kann; statistisch gesprochen sind also die bedingten Verteilun- 
gen der Untersuchungsvariablen bez. der Antwortvariablen bedeut- 
sam. 


Wir untersuchen diese bedingte Verteilungen für Modelle mit alter- 
nativer Antwortvariable (Antwort: Ja/Nein); nach dem Bayesschen 
Theorem erhalten wir die folgenden Formeln: 


WARNER-Modell: 


= Pr 
PAID = Bae CSET 
(3.133) 
_ (1-P)r 1) 
P(AIN) = {IPPO 
CONTAMINATION-Modell 
(1-9, Im 
P(A|J) = GEMENE] 
(3.134) 
dm 
P(A|N) 2 


Tel TTT 


1) Vgl. FLIGNER et al. (1977, S.1516). 
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SIMMONS-I/II-Modell 


_ [P+(1-P)y]t 
PIAITD) = "ës 
(3.135) 
(1-P) (1-) 7 1) 
P(1-m)+(1-P) (1-y) 


P(A|N) 


In (3.135) nimmt man an, das Untersuchungsmerkmal und das Zu- 


satzmerkmal seien unabhängig voneinander. 


Um einen Eindruck über die Größenordnungen zu gewinnen, sind 
einige Werte der bedingten Verteilungen in Tabelle 3.3 zusammen- 
gestellt. 


Vergleicht man nun die Unrelated-Question-Modelle mit dem 
WARNER-Modell, so sieht man, daß die Effizienzvorteile, die im 
vorausgegangenen Abschnitt dargestellt wurden, mit geringerer 


Vertraulichkeit einhergehen. 


Ein Vergleich der Modelle, der auf gleichen bedingten Vertei- 
lungen der Untersuchungsvariablen beruht - P(A|J), P(A|N) - , 
kommt zu folgendem Ergebnis: 


Im Falle dieser gleichen bedingten Verteilungen stimmen die 
Verteilung der Antwortvariablen und der Momentenschätzer 
überein. 

Ausgangspunkt dieser Überlegung ist, daß sich A und T wie folgt 


darstellen lassen: 
(3.136) A: = P(J) = P(J|A)r + P(J|A) (1-7) 


und 


~ _ Ä-P(J|A) 
(2137) v= Sia REN EREN A 


1) Vgl. FLIGNER et al. (1977, S.1517). 


2) Vgl. LEYSIEFFER/WARNER (1976, S.651) und WARNER (1976, 
S.207). 
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Tabelle 3.3: Exemplarische Werte für die bedingte 


Verteilung der Untersuchungsvariablen 
bez. der Antwortvariablen beim WARNER-, 
CONTAMINATION- und SIMMONS-I/II-Modell 


T = 0.2 1) 


WARNER-Modell 


P(A|J) P(A|N) 


CONTAMINATION-Modell 
P(A|J); darunter in Klammern P(A|N) 


0.692* 0.636 
(0.000) (0.027) * (0.077) 


0.429 0.368 
(0.000) (0.034) (0.097) 


SIMMONS-I/II-Modell 
P(A|J); darunter in Klammern P(A|N) 


1.000 1.0 1.0 1.0 
(0.167) (0.070) (0.048) (0.024) 


0.273 0.586 0.692* 0.826 
(0.143) (0.042) (0.027)* (0.013) 


0.238 0.455 0.556 0.714 
(0.0 ) (0.0 ) (0.0 ) (0.0 ) 


1) Eine äquivalente Konstellation ist mit * gekennzeichnet. 
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Übereinstimmende bedingte Verteilungen der Untersuchungsvaria- 
blen bedeuten also völlig gleichwertige Modelle; denn gleiche 
Wahrscheinlichkeit P(A|J) und P(A|N) bedingen gleiche Wahr- 
scheinlichkeiten P(J|A) und P(J|A) und umgekehrt. 


Die Bedingungen für die Gleichwertigkeit sind in Übersicht 
3.10. dargestellt II. 


1) Bei einigen Formeln vgl. BORUCH (1972, S.407) und 
SWENSSON (1976b, S.8-10). 


Übersicht 3.10: Formale Äquivalenz von Einstichproben - Modellen 1) 


WARNER- 
Modell 
en EES 


WARNER-Modell 
Auswahlwahr- 


SIMMONS-I- 


CONTAMINATION- 


scheinlichkeit 
Pu + 1/2 


CONTAMINATION- 
Modell 


Ge aoe 


wel 
l 


= 176,74), 


© 
N 


gel (ët fe) 


SIMMONS-I- 
Modell 
Auswahlwahr- 


nur für y= 1/2 


(1-P IV 


© 
H 


P, = (P+)/2 (1-P) (1-9) 


scheinlichkeit 
P 


u 


1) Die Antwortvariable Y hat jeweils dieselbe Verteilung, bzw. die 
bedingten Verteilungen von X (bez. Y) sind identisch. 


- SLL = 
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3.5.3 Model1l-Vergleich aufgrund 
gleichen Protektionsgrads 


Wie wir im vorausgegangenen Abschnitt gesehen haben, führt die 
Annahme, das Antwortverhalten sei von den bedingten Verteilun- 
gen von X bez. der Antwortvariablen abhängig, zu völlig gleich- 
artigen Modellen, was die statistischen Eigenschaften anbe- 
langt. 

Grundlage der folgenden Überlegungen ist, daß die Antwortbe- 
reitschaft entscheidend von der Vertraulichkeit der sensitiven 
Eigenschaft, als Protektionsgrad bezeichnet, beeinflußt wird. 
Für Vergleiche aufgrund gleichen Protektionsgrads ist somit der 
‘Protektionsgrad' zu operationalisieren. 


Ausgehend von der bedingten Verteilung von X schlägt LANKE fol- 


gende Definition des (inversen) Protektionsgrads př vor; ') 2} 


(3.138) P’: = max[P(A|J), P(A|N)] 


Je größer also die Wahrscheinlichkeit ist, aufgrund einer Ant- 
wort der sensitiven Kategorie A zugerechnet zu werden, desto ge- 
ringer ist die Vertraulichkeit. Bei der direkten Befragung ist 
pe = 4, 

Aus den Formeln (3.133), (3.134) und (3.135) ergibt sich, daß 
P(A|J)>P(A|N) - beim WARNER-Modell für P>1/2, beim Contamination 
Modell für Gi + GE für alle Werte P,yw beim SIMMONS-I-Modell: 


WARNER-Modell: P>1/2 


(3.139) p” = P(A|J), wenn im | CONTAMINATION-Modell: $ +6, <1 


SIMMONS-I/II-Modell: P,w belie- 
big 


1) Vgl. LANKE (1976, S.200). 


2) Eine ganz ähnliche Definition des Protektionsgrads - mit glei- 
chen Konsequenzen wie (3.138) - geben FLIGNER et al. (1977, 
5.1519) an, wobei jedoch mit steigenden Werten von PF auch 
zunehmende Vertraulichkeit verbunden ist: 

PF ; = [1-max(P(A|J), P(A|N))]/(1-7). 
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Eine informationstheoretische Version des Protektionsgrads wird 


von LEYSIEFFER und WARNER vorgeschlagen D, p” mißt den Infor- 
mationsgewinn aufgrund einer Ja-Antwort, um A gegenüber A zu 
unterscheiden: 
(3.140) PY = log HA _ iog FR) 

P(A|J) P(A) 


Aufgrund des Bayesschen Theorem ergibt sich: 


(3.141) p“ = log PIAI 
P(J|A) 


so daß als entscheidende Größe das Verhältnis P(J|A)/P(J|A) anzu- 
sehen ist: 


Wie man aus (3.139) und (3.140) leicht sieht, bedeutet für zwei 
RRT-Modelle (1 und 2) Aquivalenz bez. p” auch Aquivalenz bez. 
pW und umgekehrt 2). Wir können uns also im folgenden auf die 


Gleichheit von P(A|J) bei den Vergleichen beschränken. 


Für ein allgemeines RRT-Modell mit alternativer Untersuchungs- 

und Antwortvariabler (vgl. (3.136), (3.137)) erhalten wir folgen- 
de Formel für die Varianz von t(n=1): 
T? (1-1) 7 a 


(3.142) Var m = (P (Ald) nl (17-P (AIN) ) 


e n=) 

Aus (3.142) sieht man sofort, daß - unabhängige Variationsmög- 
lichkeit von P(A|J) und P(A|N) unterstellt - eine Erhöhung von 
P(A|J) - gleichbedeutend mit einer Verringerung der Vertraulich- 
keit - c.p. zu einer Varianzreduktion führt. Eine Erhöhung von 
P(A|N) bewirkt c.p. eine Varianzsteigerung. Vergleicht man nun 
zwei spezielle Modelle dieser allgemeinen Klasse (WARNER-, 
CONTAMINATION-, SIMMONS-I-Modell), so ergeben sich die entspre- 
chenden Bedingungen für den Varianzvergleich bei gleichem Pro- 
tektionsgrad (gleichem Wert für P(A|J)) aus dem Vergleich der 

1) Vgl. LEYSIEFFER/WARNER (1976, S.650) und WARNER (1976,S.206). 


2) Vgl. die Diskussionsbemerkung von MOORS in HORVITZ et al., 
(1976, S.227£.). 


3) Vgl. die Umformung bei ANDERSON (1975a,S.12) und 
ANDERSON (1976, S.214). 
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bedingten Wahrscheinlichkeiten P(A|N). In einem ersten Schritt 
sind also die Bedingungen für die Aquivalenz der Modelle bei 
gegebenem Protektionsgrad (symbolisiert durch 'BG' ) zu bestim- 


men. 


Ein Vergleich der jeweiligen Formeln für P(A|J) führt zu folgen- 


den Ergebnissen: 


(3.143) WARNER-Modell PG SIMMONS-I-Modell : 
la _ (BJ 5 
2P -1 P 
w u 
(3.144) WARNER-Modell PG CONTAMINATION-Modell: 
1-P H 
un = —P 
P 1-9 
WwW n 


Ein vorgegebener Protektionsgrad bestimmt das einparametrische 
WARNER-Modell - d.h. Py - eindeutig, dem entsprechen bei den 
zweiparametrischen Modellen, dem SIMMONS-I-Modell und dem 
CONTAMINATION-Modell unendlich viele Parameterkombinationen. Die 
Abbildungen 3.3/4 illustrieren diesen Sachverhalt. Während beim 
WARNER-Modell mit dem Protektionsgrad P(A|J) auch P(A|N) festge- 
legt wird, können die zweiparametrischen Modelle P(A|N) variie- 
ren, so daß folgende Bedingungen für den Varianzvergleich bei 


gleichem Protektionsgrad gelten: 


(3.145) Vergleich WARNER-mit SIMMONS-I-Modell bei gleichem 


Protektionsgrad: 
a > a 
Var TWAR < Var TSIM <=> 
2) 
d 2 172 


1) Vgl. LANKE (1976, S.200). Sein Theorem 1 ist eine 
Umformung von (3.143). 


2) Vgl. LANKE (1976, S.201); WARNER (1976, S.209f.); 
FLIGNER et al. (1977, S.1519). 
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Abb. 3.3: Iso-Protektionsgrad-Kurven für das 


Contamination-Modell. m=0.2. 


(Inverser Protektionsgrad pP; = P(A|J) ) 


Abb. 3.4: Iso-Protektionsgrad-Kurven für das 
SIMMONS-I-Modell. r=0.2. 


(Inverser Protektionsgrad ply = P(A|J) ) 
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(3.146) Vergleich WARNER-mit CONTAMINATION-Modell bei gleichem 


Protektionsgrad: 
Var TWAR 2 Var Toon <=> 
< 
> = 
th 1 Pu 


Für das SIMMONS-I-Modell und das CONTAMINATION-Modell lassen 
sich also Modellparameterkonstellationen angeben, in denen die 
Varianz von 7 bei konstantem Protektionsgrad immer kleiner ist 
als beim WARNER-Modell. Die kleinsten Varianzen lassen sich für 
p=1 n bzw. CH erreichen - die bedingte Wahrscheinlichkeit 
P(A|N) ist dann jeweils Null. Bei einem gegebenen WARNER-Modell 
mit Pu sind dann Pi = 2-1/P,, bzw. Be" Bel, Man sieht dann 
sofort, daß die Varianzen im SIMMONS-I- und im CONTAMINATION- 
Modell gleich groß sind. Aus Tabelle 3.4, in der einige Ver- 
gleichswerte der Varianzen dargestellt sind, wird deutlich, daß 
die Varianzen der zweiparametrischen Modelle erheblich kleiner 


sein .können als die des äquivalenten WARNER-Modells. 


Tabelle 3.4: Verhältnis der Schätzervarianz des opti- 


malen SIMMONS-I-/CONTAMINATION-Modells 
(y= 1/70) zu der des WARNER-Modells 


(mit Parameter Py? bei gleichem Protektions- 
grad. 


1) Vgl. LANKE (1975, S.83) und LEYSIEFFER/WARNER (1976, S.653). 
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Die Gegenüberstellung des SIMMONS-I-Modells und des CONTAMINAT- 
ION-Modells führt zu folgenden Ergebnissen: 


(3.147) SIMMONS-I-Modell PG CONTAMINATION-Modell 
(1-P_) 
ees : ü y = "e 
u d d 
Con 
A > A 
(3.148) Var T SIM < Var Tcon 


Grundlage aller dieser Vergleiche ist jedoch die schon oben dar- 
gestellte Annahme, das Antwortverhalten werde durch den Wert von 
P(A|J) bestimmt. Gegen die Realitätsnähe dieser Annahme lassen 
sich sicherlich Vorbehalte anbringen. 

So ist es höchst fraglich, ob sich ein Befragter von einer so 


komplexen Größe wie P(A|J), die zudem noch von unbekannten Para- 
metern abhängen kann, in seinem Antwortverhalten leiten past!) 2) 3) 
Andererseits kann P(A|J) durchaus als objektives, statistisch 
begründetes Maß des Protektionsgrads aufgefaßt werden. Die Nicht- 
beachtung von P(A|N) kann jedoch zu möglicherweise nicht kalku- 
liertem unerwünschten Antwortverhalten führen, insbesondere, 

wenn - wie in den optimalen Versionen - P(A|N) gleich Null ist. 


Eine Nein-Antwort bedeutet in diesem Fall, der Befragte hat die 


1) vgl. die Diskussionsbemerkungen von MOORS und SCOTT in 
HORVITZ et al. (1976, S.228 und 229). 


2) MORIARTY/WISEMAN (1976) untersuchen, wie Befragte die Wahr- 
scheinlichkeitsverteilung von unterschiedlichen Randomisie- 
rungsinstrumenten einschätzen,und schlagen vor, solche zu ver- 
wenden, bei denen die empfundene (mittlere) Wahrscheinlich- 
keit (P*) für das Auftreten der Frage nach A(P) geringer ist 
als die tatsächliche. Aufgrund ihrer Beobachtungen bietet sich 
eine Summenvariable aus zwei Würfeln an (z=1, wenn 


4=<X, +X,s10; P*=0.7, P=0.83). 


3) Bez. des Zusammenhangs der Wahrscheinlichkeit P und dem Ant- 
wortverhalten vgl. die empirische Studie von PEARL/FEDERER 
(1975). 
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Frage nach der Eigenschaft A beantwortet, so daß die Vertrau- 


lichkeit seiner Angabe nicht gewährleistet ist I), 


Die angegebenen Äquivalenz- und Vorteilhaftigkeitsbedingungen 
sowie die numerischen Aussagen der Vergleiche aufgrund glei- 
chen Protektionsgrads sind sicherlich nur als Anhaltspunkte 
zu sehen. Die Analyse soll deshalb auch nicht auf die anderen 
Modelle ausgedehnt werden. Deutlich ist jedoch geworden, daß 
die zweiparametrischen Modelle flexibler sind und somit i.a. 
dem einparametrischen Modell vorzuziehen sind. 


1) Vgl. GREENBERG et al. (1977, S.58). 


Übersicht 3.11: Modell-Vergleich aufgrund gleichen Protektionsgrads 


über der Hauptdiagonalen : Bedingung für Äquivalenz 
unter der Hauptdiagonalen: Varianzvergleich bei gleichem Protektionsgrad 


CONTAMINATION- 
(rie) 


SIMMONS-I- 
(Py) 


CONTAMINATION- 
(5,0) 


SIMMONS-I- 


(Pd) 


= Ell < 
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3.5.4 Modellvergleich mit explizi- 
ter Berücksichtigung der Ant- 
wortbereitschaft 


Bei den bisher durchgeführten Vergleichen wurde die Antwortbe- 
reitschaft der Befragten nur implizit berücksichtigt. Außerdem 
konnte keine Aussage gemacht werden, ob ein RRT-Modell in einer 
bestimmten Anwendungssituation effizienter als die direkte Be- 
fragung ist, wobei die Genauigkeit (mean square error) als Kri- 


terium zu verwenden ist. 


Schon WARNER vergleicht sein Modell mit der direkten Befragung; 
dabei nimmt er an, daß ein jeweils unterschiedlicher Anteil der 
Befragten mit der Eigenschaft A oder A bei direkter Befragung 

eine falsche Antwort gibt, bei ee wi RRT-Modells jedoch 


alle Befragten wahrheitsgemäß antworten 5 


Diesen Ansatz nehmen GREENBERG et al. 2) auf und vergleichen 


das WARNER-Modell, Multiple-Trial-Versionen des WARNER-Modells, 
das Contamination-, das SIMMONS-I- und das FOLSOM-Modell. Sie 

gehen davon aus, daß bei direkter Befragung ein Anteil Ta der 

Befragten mit der Eigenschaft A nicht wahrheitsgemäß antwortet. 
Für die RRT-Modelle unterstellen sie wahrheitsgemäße Antworten. 
Diese Annahme ist sicherlich nicht realistisch; allenfalls ist 
zu erwarten, daß der Anteil der Falschantworten beim RRT-Modell 


geringer als bei der direkten Befragung ist. 


Aus diesem Grund wird hier ein erweiterter Vergleichsansatz ge- 


wählt ar) Sowohl für die direkte Befragung als auch für die 


1) Vgl. WARNER (1965, S.64f). 
2) Vgl. GREENBERG et al. (1974). 
3) Vgl. den ähnlichen Ansatz bei LIU/CHOW (1976a, S.611f.). 


4) O'BRIAN/COCHRAN (1977), O'BRIAN/COCHRAN (1978) berücksich- 
tigen ebenfalls falsche Antworten im RRT-Modell. Sie gehen 
jedoch davon aus, daß die Gruppe der Befragten, die nicht 
zu einer Antwort bereit ist oder den Befragungsmechanismus 
überhaupt nicht versteht, homogen ist, ihr Antwortverhalten 
also nicht vom Vorliegen der sensitiven Eigenschaft beein- 
flußt ist. 
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RRT-Modelle wollen wir die Möglichkeit einer falschen Beantwor- 
tung der Frage nach der sensitiven Eigenschaft annehmen. Der 
Übersicht halber gehen wir davon aus, daß die Befragten mit der 
Eigenschaft A wahrheitsgemäß antworten, da sie ja nichts zu 


verbergen haben. 


Bei einem tatsächlichen Anteil der Eigenschaft A bekennt sich 


also nur ein Anteil 


(3.149) me =T 


bei der Befragung zu A. 

Für die Varianz des Schätzers sind also die entsprechenden For- 
meln mit m* zu verwenden. 

Den mean square error als Vergleichsgrundlage erhalten wir durch 


Addition des quadrierten Bias (n*-m)? zur Varianz von 7 
(3.150) MSE(n) = Var(ü|ı*) + (n*-m)? 


Bei der Entscheidung für die RRT als Alternative zur direkten 
Befragung oder bei der Auswahl eines bestimmten RRT-Modells ist 
also die Genauigkeit als Vergleichskriterium heranzuziehen. Hier- 
bei sind sowohl für die direkte Befragung als auch für die RRT- 
Modelle - bei diesen in Abhängigkeit von den Modellparametern - 
Schätzwerte für die Anteile Ta (bei der RRT als TAR, bei der di- 
rekten Befragung als TAD bezeichnet) anzunehmen, die angeben, wie- 
viel Prozent der Befragten mit der Eigenschaft A in der angenom- 


menen Befragungssituation wahrheitsgemäß antworten. 


Um diese Entscheidungssituation zu verdeutlichen, führen wir 

hier das Konzept der Iso-MSE-Kurve ein. Eine Iso-MSE-Kurve für 
ein RRT-Modell und die direkte Befragung enthält all die (kriti- 
schen) Kombinationen (TAD, TAR), für die die Genauigkeit der bei- 
den Verfahren übereinstimmen. Der Verlauf der Iso-MSE-Kurve hängt 
einmal von 7 sowie dem Stichprobenumfang n und den Parametern 

des RRT-Modells ab. Liegt in einem Anwendungsfall die vorliegende 
Antwortbereitschaft (ausgedrückt in TAD und TAR) oberhalb der 
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Abb. 3.5 - 3.7: Iso-MSE-Kurven für das WARNER-Modell 


Abb.3.5: n=1000, P=0.7 Abb.3.6: 1=0.2, P=0.7 
, m=0.1(") ,0.15(7),0.2(%), n=200(?),300(?),400(°), 
0.3(*),0.4(°),0.5(ê). 500(*),1000(°),2000(°). 


TAR 


Abb.3.7: 1=0.2, n=1000 
P=0.6(1) ,0.65(7),0.7(3), 
0.75(*),0.8(°) ,0.85(°) ,0.9(7) ,0.95(%). 


TAR 
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Abb. 3.8 - 3.11: Iso-MSE-Kurven für das Contamination-Modell 


Abb.3.8: n=1000, $70, 0 Abb.3.9: n=0.2, dad > 70.3 
m=0.05(1),0.1(7) ,0.15(3), n=100(7) ,200(?),300(°), 

0627) 90.3107) .0.4(°) 70.50). 400(*) ,500(°) ,1000(®) ,2000(7). 

S 1 2 3 4567 8 1 2 345 6 7 


2 
a 
co 
Ho 
eh sg . C.70 0.85 . 00 
TAD 
Abb.3.10: T=0.2, n=1000, Af? Abb.3.11: m=0.2, n=1000, $ =0 
6 =0.60°),0.5(?),0.4(°), $,=0.9(7) ,0.8(7),0.7(7), 
0.3("),0.2(°),0.1(°). 0.6("),0.5(5) ,0.4(°) ,0.3(7) ,0.2(°), 


0.17) 020507"). 


TAR 
TAR 
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Abb. 3.12 - 3.15: Iso-MSE-Kurven für das SIMMONS-I-Modell 


Abb.3.12: n=1000, P=0.5, y=l Abb.3.13: DI ur 
n=0.1(1),0.15(2), n=100( ),200( Ir. 
19195403 E il 300(3),400(*),500(°),1000(°), 


TAR 


TAR 


2000 (?). 


0.60 9.70 0.85 0.90 1,00 
TAD 
Abb.3.14: 1n=0.2, n=1000, sl Abb.3.15: n=0.2, n=1000, P=0.5 
pP=0.5(+),0.55(7), y=1.0( ) 40.5 ( In 
E E E E A ER E E 751°); 0.4(?),0.3(*),0.2(?”),0.1(°) 


0.8(7),0.85(8),0.9({(?). 


o 123456789 
T 


en 


TAR 
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Iso-MSE-Kurve, so ist das entsprechende RRT-Modell anzuwenden; 
liegt sie darunter, so erzielt die direkte Befragung eine höhe- 
re Genauigkeit. Da die Varianz bei einem RRT-Verfahren aus der 
Stichproben- und der Antwortvarianz besteht, verläuft die Iso- 
MSE-Kurve immer oberhalb der Winkelhalbierenden. Oder anders 
ausgedrückt: Ein RRT-Verfahren kann nur dann effizienter als 
die direkte Befragung sein, wenn es höhere Werte von T, erzielt 


A 
als diese. 


In den Abbildungen 3.5 bis 3.16 sind für das WARNER-, das 
Contamination- und das SIMMONS-I-Modell Iso-MSE-Kurven (TAD, TAR 2 
0.5) für verschiedene Konstellationen von 7 und n sowie die Mo- 


1) 


dellparameter dargestellt. Man sieht sofort, daB diese Kurven 
für größere Werte von TAR und TAD weiter auseinander liegen als 


für kleine Werte. 


Eine Betrachtung der Abbildungen 3.6, 3.9 und 3.13 bestätigt die 
Erkenntnis, daß ein RRT-Modell umso eher anzuwenden ist, je grö- 
ßer der Stichprobenumfang ist. Die Anwendung eines RRT-Modells 
kann jedoch auch schon bei kleinen Stichprobenumfängen angezeigt 
sein: Ist im WARNER-Modell beispielsweise TAD kleiner als 0.59 
und TAR = 1, so ist bei n = 200 das WARNER-Modell (mit P=0.7) 
genauer als die direkte Befragun ( 7=0.2). Bei TAD = 0.5 muß die 
RRT diesen Anteil der richtigen Antworten auf mindestens O.71 
steigern, um eine größere Genauigkeit zu liefern. Für n = 2000 


lauten die entsprechenden Werte 0.87 und 0.52. 


Bemerkenswert ist die Tatsache, daß die RRT umso eher anzuwenden 
ist, je größer der Anteil der sensitiven Eigenschaft ist (Abb.3.5, 
3.8, 3.12). Da die Anteile bei sensitiven Merkmalen, bei deren 
Erhebung die RRT bevorzugt einzusetzen ist, in der Regel relativ 
1) Die Rechenarbeiten wurden auf der Rechenanlage ICL 2960 des 
Rechenzentrums der Universität Hohenheim durchgeführt. Zur 
Ermittlung der Iso-MSE-Kurven wurde ein Nullstellensuchpro- 


gramm der NAG-Library (ICL-Software) verwandt. Die Abbildun- 
gen wurden auf dem Plotter des Rechenzentrums angefertigt. 
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Abb. 3.16: Iso-MSE-Kurven für das multiple WARNER-Modell 


1=0.2, n=1000, P=0.7 
m=1(1) ,2(7),3(7) ,4(*) ,5(°) ,10(°). 


TAR 


klein sind, schrdnkt diese Beobachtung die Anwendbarkeit der 
RRT offensichtlich etwas ein. So ist für 1=0.05 bei den in den 
Abbildungen vorgegebenen Werten - außer beim Contamination- 
Modell - die direkte Befragung immer effizienter als die RRT. 


Beim WARNER- und beim SIMMONS-I-Modell erhöht sich die Vorteil- 
haftigkeit mit zunehmenden Werten von P (Abb.3.7 und 3.14). 
Dabei liegen die Iso-MSE-Kurven im Unrelated-Question-Modell 
deutlich näher beieinander. Dies gilt auch für die Reaktion bez. 
unterschiedlicher Werte von y: Die Kurven verschieben sich mit 
abnehmendem y nach rechts (Abb.3.15). Diese Kurvenverschiebun- 
gen gehen mit den in 3.5.3 besprochenen Änderungen des Pro- 
tektionsgrads einher. 
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Im Contamination-Modell nimmt die Vorteilhaftigkeit gegenüber 
der direkten Befragung mit fallenden Werten von on und di C.p. 
zu (Abb.3.10, 3.11). 


Beim Multiple-Trial-WARNER-Modell (Version I) liegen die Ver- 
hältnisse der Tendenz nach wie vor beim einfachen WARNER-Modell. 
Bei einer Erhöhung der Anzahl der Versuche (m) steigt c.p. die 
Vorteilhaftigkeit dieses Modells. 
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4, MODELLE ZUR SCHÄTZUNG DER VERTEI- 
LUNG MEHRKLASSIGER MERKMALE 


4.1 MODELLE VOM WARNER-TYP 


Für die Schätzung der Häufigkeitsverteilung eines mehrklassi- 
gen Merkmals - auch eines diskreten quantitativen mit endli- 
chem Wertevorrat - werden - ähnlich wie bei alternativen Merk- 
malen Modelle vom WARNER-Typ vorgeschlagen, die nur mit dem Un- 
tersuchungsmerkmal arbeiten, und Unrelated-Question-Modelle, 
die ein Zusatzmerkmal verwenden. 


ABUL-ELA et al. 13 


haben eine Verallgemeinerung des WARNER-Mo- 
dells zur Schätzung der Häufigkeiten eines k-klassigen Merkmals 
angegeben, wobei höchstens k-1 Kategorien sensitiv sind. Zur 
Schätzung sind k-1 Stichproben notwendig. In jeder Stichprobe 
beantwortet jeder Befragte eine alternative Frage nach einer zu- 
fällig ausgewählten Kategorie. Die Auswahlwahrscheinlichkeiten 
unterscheiden sich in den einzelnen Stichproben. Aufgrund der 
k-1 Ja-Antworten-Anteile aus den Stichproben lassen sich Schätz- 


werte für ETA EA EE angeben. 


Da einem Befragten jeweils nur eine alternative Frage nach 
einer Merkmalskategorie gestellt wird, ist die Effizienz die- 
ses Verfahrens geringer gegenüber einem Ein-Stichproben-Verfah- 
ren, in dem der Befragte eine mehrklassige Frage beantwortet. 
Ein solches Verfahren wird von BOURKE/DALENIUS 2) vorgeschlagen. 


1) Vgl. ABUL-ELA et al. (1967) und SKARABIS (1976, S.264-266), 
der das gleiche Modell vorschlägt. 


2) Vgl. BOURKE/DALENIUS (1973) und BOURKE (1978b, S.197-199). 
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4.1.1 Das BOURKE-DALENIUS-ModeLlLl* 


Im BOURKE-DALENIUS-Modell sind zur Schätzung der Häufigkeiten 
Tor Tyree eM ly eines k-klassigen Merkmals k unterschiedliche 
Fragen erforderlich, die aus Permutationen der k Kategorien be- 
stehen. Der Befragte gibt jeweils die Stelle an, auf der seine 
Eigenschaft genannt ist. Damit der Interviewer aus der Antwort 
keine direkten Rückschlüsse ziehen kann, muß jede Kategorie ein- 
mal an jeder Stelle stehen, so daß sich eine Anordnung der Fra- 
gen im lateinischen Quadrat ergibt. Für k=3 ist etwa folgende 


Darstellung möglich: 


Position Frage O Frage 1 Frage 2 
(0) O 2 1 
(1) 1 O 2 
(2) 2 1 O 


Ein Befragter mit der Eigenschaft 1 antwortet bspw. 1 bei Frage 
O, 2 bei Frage 1 und O bei Frage 2. 


Die Fragen O,1,...,k-1 werden mit den Wahrscheinlichkeiten 
Po’ Piret ee Pki ausgewählt. 

Als Randomisierungsinstrumente können ein Kartendeck mit k ver- 
schiedenartigen Fragenkarten oder eineUrne mitk verschiedenfarbi- 
gen Kugeln - je nach Farbe der gezogenen Kugel ist eine bestimm- 


1) 


te Fragenanordnung zu beantworten - verwendet werden. 


Das BOURKE-DALENIUS-Modell läßt sich durch das folgende Modell 
abbilden: ek 


1) Vgl. BOURKE (1978b, S.198). 


2) Die Modellformulierung ist ähnlich der bei KIM/FLUECK 
(1978a, S.351f.), die ein ‘additives RRT-Modell' vorschla- 
gen, das jedoch mit dem BOURKE-DALENIUS-Modell identisch 
ist. 
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Die Untersuchungs-, Randomisierungs- und Antwortvariablen 
(X,Z,Y) können jeweils die Zahlen O,1,...,xk-1 annehmen: 
(4.1) Q = Q e 0 = mn?) e 1) 


sie sind jeweils multinomialverteilt: 


GN PÜIT SIT eee eT a) 
Po = PUL PorPyre eee Py a) 
P = a 


y PAG Agree chu) 


Der Zusammenhang T zwischen (X,2) und Y läßt sich mittels der 
Modulo-k-Funktion (mod, ) 3) definieren: 


(4.2) T: Q xQ >R 
x Zz y 


(x,z) => mod, (x+z) e 


Aufgrund der Abbildung T und Formel (2.3) erhält man die Wahr- 
scheinlichkeiten A für die Verteilung von Y : 


k-1 
(4.3) A, = J P oe . i=0,...,K-1 
i 3£0 mod, (i j) 5 
bzw. mit 
P: = (Prod, (4-3) i,j 
und 


D = U 
Ar = Dachau scha) 


Er 

N 

£ 
E 


Mr Tree) 


1) n!°) bezeichnet die Menge der natürlichen Zahlen kleiner 
gleich n einschlieBlich der Null. 


2) en: Trees) bezeichnet die Multinomial-(Polynomial-) 
verteilung. 


: O 
3) mod, : Z> N0) 


x » (nicht-negativer) Rest bei Division von x durch k. 
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das folgende Gleichungssystem in Matrixschreibweise: 


(4.4) A = Pr 


Für den Spezialfall k = 3 erhalten wir folgendes Gleichungs- 


system: 
Ao Po Po P, Ms 
An = P, Po Po T4 
A P P P T 


N 
N 
wech 
O 

N 


Aus dieser Gleichung - nach ų aufgelöst - ermittelt man den Mo- 


mentenschätzer Ay aus den Schätzungen \ aus der Stichprobe: 


n. 


(4.5) Se E A un = -5 Les 0,1,...,K-1 


Im Stichprobenmodell mit Zurücklegen ist Tu erwartungstreu und 


besitzt die Varianz-Kovarianzmatrix 


(4.6) Dit) = E D(A)P mit 
Gelz ` Zen “dakai 
D(A) =|-A,À 
=A 1 
oO 1) 
A A A) 


Wie in Formel (4.17) gezeigt wird, läßt sich die Streuungs- 
matrix D(n,) in zwei Bestandteile aufspalten: 


1) Vgl. BOURKE (1972b, 5.199). 


+ P 


A 
-1 28 -1' "o, QO 
O my Pa 


k-1 


Der erste Teil entspricht der Streuungsmatrix des Schätzers 
bei direkter Befragung, die beiden letzten Summanden sind auf 


die Randomisierung zurückzuführen. 
Betrachtet man als Ausdruck für die gesamte Varianz der Schät- 


zung der m, die Spur von Diny): erhalten wir folgenden einfa- 


chen Zusammenhang: 
` -d k-1 2 
(4.8) Spill = Sp[D(m )I + } Q; - 1 i 
l i=O 


wobei Qi i=O,1,...,K-1 die konstituierenden Elemente von e! 


sina. |! 


Eine erwartungstreue Schdtzung fir Osch erhalten wir durch 


ae Se = = at 1 
(4.9) Ba) = E DE mit 
Ao rd Are: RE ke 
~ > T 1 . A 
oo mel Ze ar, 
"An a e e o k-1 k-1 


Die Momentenschätzer können durchaus die Nichtnegativitätsbe- 


dingungen für die einzelnen Vektorkomponenten verletzen. 


Die Bestimmung der ML-Schätzer ist eine nicht lineare Optimie- 


1) Es läßt sich zeigen, daß die transponierte Inverse von P im 


gleichen lateinischen Quadrat wie P angeordnet ist, also 
auch nur n verschiedene, konstituierende Elemente enthält. 
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rungsaufgabe - unter Beachtung von Nebenbedingungen -, die sich 


nur numerisch lösen läßt. 


Die Formulierung des BOURKE-DALENIUS-Modells als lineares Mo- 
dell macht keine großen Schwierigkeiten. 

Die Elemente von dÉi sind die k Einheitsvektoren des RË, die von 
N, Permutationsmatrizen: 


Us far 


x i+] |i=O,...,k-1) } 


“mod, (=z) +1 


© 
It 


{ | °mod, (1-z) +1 |z=0,1,...,k-1} 


“mod, ((k-1)-2) +1 


Das lineare Modell läßt sich so schreiben als: 


Y, = Br +, mit E(U,) = O 
und D(U.) : = 2 
= 1 =o 
i = ees ee N 
bzw. zusammengefaßt: 
DEG 
mit 
Y: = Kirk)" 
Ars Pe 
= = n 
= ' II? .e = = 
wet = (Ufroe Ug) Vii = E £62, 


Den KQ-Schätzer erhalten wir nach der verallgemeinerten Methode 
der kleinsten Quadrate: 


RE E VOR 
(4.10) Ty = (X'V A Sg 


nach einigen Umformungen erhält man: 


e =1.1 ` ` 
(4.11) to =P G pg) = a i 
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Mit der Übereinstimmung der KQ- und des Momentenschätzers sind 
somit gewisse Optimalitätseigenschaften dieses Schätzers ge- 


zeigt. 


Für das allgemeine Stichprobenmodell werden die Variablen wie 


im linearen Modell formuliert. 


Aus der Antwort Yi đes i-ten Befragten läßt sich dann ein er- 


wartungstreuer Schätzer x, für seinen Zustand X, angeben: 
(4.12) Ss P Y 


Der Schätzer für nm ist dann nach (2.56): 


e 1 e -1 1 

(4.13) @ == J weet zb +> = J we, 

N ‚es iS-i N ‚Es iS-i 
Die Streuungsmatrix von i” läßt sich nach (2.60) zerlegen in: 

(4.14) Daf = D, (ao) + 4 5 E,WD,(%.) = 
i =M =I 2 „Lu @1"i=2'8i 
N i=1 
I A DI 
= D) +P Le / E,W5D,(¥,) IP 
N i=1 


Die Streuungsmatrix D, (Y,) hat folgende Gestalt: 


. = on = = ‘pe 
(4.15) D (¥;) = E,(2,x,x32:|x,= ¢y4,) = Bx,xjP 
k-1 
= J PA x z) PX. X! P' 
z=0 ’ 8 


mit 
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dÉ 12, 12, = Oz a> Zeil 


1) 
(ô 


: e. ) 
i,mod, (x+z) +1 j mod, (x+z) +1 CR 


Für die Schätzung von Din) verwendet man am besten eine - bei 


der direkten Befragung erwartungstreue - Schätzfunktion jå für 


D(X) und verwendet dann (3.159). 


Der Bias, der hierbei auftritt, geht mit wachsender Grundgesamt- 


heit gegen Null; es ist: 


(4.16) Bias Ep) e ET LI opor = 


Ss "e O 
O.,, ej 


-1 ; 471 
“Wile 


Für den Spezialfall einer einfachen Stichprobe ohne Zurücklegen 


erhalten wir folgende (einfachere) Formeln: 


{=> 
It 
ao) 
Ed 
H 
ER 


M 
mit 
(1-7) - TOM, “Tet 
a _ N-n 1 , l 
(4.17) D(T) = N-71 °R i - 
"k-17 T Ta 


2) Vgl. die Ableitung der Formel (4.18). 
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Den zweiten Bestandteil erhält man mit EW? = N/n und (4.15): 


N k-1 
(4.18) eit J ewet lp Ars au: PE EE BUR = 
N“ i=1 zo 7 ne 
"ki ki Ber k-1 
= - {p | ) PA. 5) Tele 1" ) eg 
x=O z=O É J J 


j=0 


po! ST 


7 O er] ` Eh es 


Verwendet man für die Schätzung von Din 


3|- 


mit 
KIA ITA A SE do k=1 
SÉ rf . 1. , N-n 
(4.19) D(A) = net N ` ` ` i 
e E CH A, TAk- 
-1-d -1 


(Å) P i 


so verwendet man einen verzerrten Schätzer; der Bias ergibt sich 
aus (4.16). 


Drückt man die 'Gesamtvarianz des Modells' durch die Spur der 
Streuungsmatrix des Schätzvektors aus, so erhält man für die Spur 
des zweiten Bestandteils (bezeichnet mit v) folgenden Ausdruck, 
der nur von den Modellparametern (Porere Phua) abhängt, die ihrer- 
seits die konstituierenden Elemente von P71 (Qor eee rka) bestim- 


men. 
(4.20) v = 1 Q. - 1 
Mit (4.20) ist ein Ausdruck ftir die Zusatzvarianz des BOURKE- 


DALENIUS-Modells gegenüber der direkten Befragung gewonnen worden; 


anhand von v lassen sich die Auswirkungen der Wahl der 
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P.7i=0,..-,k-1 auf die Schatzvarianzen ermitteln. 


Für drei Kategorien erhalten wir ein besonders einfaches Ergeb- 
nis - ohne explizite Berechnung der Inversen von P, 
O.B.d.A. wählen wir eine Fragenanordnung, die die folgende symme- 


trische Matrix P besitzt: a? 


Po P] P3 
E" Pi Py Po 
Po Po P] 


Nennen wir die Eigenwerte von P Mar H: und Hy, SO können wir 
feststellen: 


3 2 
- u5 = u3 sda )u, = ) P] = 1 (Transformationsin- 


varianz der Spur), 


3 2 
- ) i = 3.) p? (aus Sp(P*)). 
v kann man über die Spur von pe ermitteln: 


+ =2 1 > 
(4.21) v = Sp(P KAN 3 I 


Verwendet man die Eigenschaften der Te E ‚ so erhält man 
nach einigen Umformungen: 


(4.22) v* = £[—,—4,—  - 1] 


2 2.0.2 
3(P+Pı+P,) 1 
Die Zusatzvarianz des BOURKE-DALENIUS-Modells für drei Klassen - 
ausgedrückt durch die Summe der Zusatzvarianz der Schätzer Ta - 
hängt somit lediglich von der Summe der quadrierten Auswahl- 


wahrscheinlichkeiten für die Fragen ab. Etwas unpräzise formu- 


1) Man überlegt sich anhand von (4.20) leicht, daß der Wert 
von vt vom gewählten lateinischen Quadrat unabhängig ist. 
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liert, ist die Zusatzvarianz umso größer, je näher die Auswahl- 
wahrscheinlichkeiten beieinander liegen. In der Tabelle 4.1 sind 
für einige Werte von Po! Pas P3 Qie Werte der Zusatzvarianz zu- 
sammengestellt. Die Summe der Varianzen der direkten Schätzer 
kann für k = 3 maximal 2/3 sein. Man sieht also, daß durch die 
Randomisierung die Varianz der Schätzer beträchtlich erhöht wird. 
Diese Zusatzvarianz ist durch eine Verringerung des Bias zu kom- 


pensieren, um das BOURKE-DALENIUS-Modell rational anzuwenden. 


Tabelle 4.1: BOURKE-DALENIUS-Modell für dreiklassige Merkmale: 


Werte der Zusatzvarianz yt 1) (n = 1) für aus- 


gewählte Werte von Po und_P, (P, = 1-P Z221} 


66.0 8.8571 1.1351 


16.0 8.8571 3,9 1.4839 0.6154 = 


4.4615 4.4615 2.8421 1.4839 0.6939 0.2466 


1.7143 2.0 1.7143 1.1351 0.6154 0.2466 


1) v = Var dÉ + Var up) + Var T3 - T 1-71) - 


- 1, (1-15) - Ta (1-13) 
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Übersicht 4.1: Das BOURKE-DALENIUS-Modell 


(Beispiel eines trichotomen Merkmals) 


i. Fragen- ‘An welcher Stelle steht Ihre Eigenschaft?' 
struktur 


Auswahlwahrscheinlich- 
keit der Frage 
(0) P 
oO 
1 P, 
2 P, 


2. Modell 
Untersuchungs- 


Ran- 
domisierungs- 
Antwort- 
variable 


trichotome Variable: d =Q =2 = {0,1,2} 


Verteilung Wë Po P, P, T 
von Y 
A, = Pi Po Po Ti 
A, P, Pi Pa Ta 
Amp" 
3. Schätzung 
Momenten- d = Dë | 
methode 
Streuungs- ei _ ool + wl 
- matrix Din, "E D(AB mit 
A UA) AA, AA, 
DA) = “ry AS AZ GA) AA, 


-À A. “AoA, A, (-A,) 


Zerlegung 
der 
Streuungs- 


matrix 


4. Stichpro- 


bentheoreti- 


scher Ansatz 


1 


(4.14) DIR) = D, (#9) + pP” E,W? D GIE 


12 


Spezialfall . 
Stichprobe 
ohne 

Zurück- 


legen 
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4.1.2 Das HOPKIN S-IIIModell 


Für das HOPKINS-III-Modell zur Schätzung der Häufigkeiten eines 
mehrklassigen Merkmals ist das verwandte Randomisierungsinstru- 
1 Die HOPKINS-III-Urne - ähnlich der 

HOPKINS-II-Urne - besteht aus einem kugelförmigen Behältnis mit 


ment charakteristisch. 


Kugeln in k verschiedenen Farben (jeweils eine Kategorie symboli- 
sierend) , die jeweils m -tach (j=0,...,K-1) vorhanden sind 
(matm e. Fm Der Urnenausgang besteht aus einem Röhrchen 
mit k-1 


Plätzen. Der Befragte schüttelt die Urne, dreht das Röhrchen nach 
unten und läßt alle Kugeln in den Kugelhals rollen, der für den 
Interviewer verdeckt ist. Er beantwortet die Frage, auf welchem 
Platz (von unten gerechnet) zum ersten Mal eine Kugel erscheint, 


die seine Eigenschaft symbolisiert. 


Dieses Modell kann jedoch, wenn eine Kategorie nur durch eine Ku- 
gel repräsentiert wird, bei der Antwort 'm' einen sicheren Rück- 


schluß auf den Zustand des Befragten zulassen. 2) 


Die Wahrscheinlichkeit Sat dafür, daß eine Kugel der Kategorie j 
zum ersten Mal auf dem Platz i erscheint, ermittelt man als 
Laplace-Wahrscheinlichkeit. 
(m-i-1) !(m-m.) !m. 
EE 
(4.23) P.. = 


O i >m-m. 
J 


Zur Schätzung von Torre eM 4 verwendet man folgendes lineare 
Modell; al 
tion i angaben. 


Ai bezeichnet den Anteil der Befragten,die die Posi- 


1) Dieses Modell wurde von LIU et al. (1975) vorgestellt. 
2) Vgl. LIU et al. (1975, S.331). 
3) Vgl. HORVITZ et al. (1975a, S.279). 
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À. = ) Pn, + U. i=0O,...,K-1 


A (17A IFA A RA 
O. oO o 1 Dk 
(4.24) g 


DI 
C 
H- 
1i 
IO 
ka 
" 
IO 
IC 
" 
GIE 


e EE EN 


Die KQ-Schätzer 7 


meinerten Methode der kleinsten Quadrate: 


(Tg... ef Al erhält man nach der verallge- 


-1 


(Gu e" 


I mit Â= (å 


la» 
H 


Ev 


$ H 
org) D 


In Anwendungen muß V aus der Stichprobe geschätzt werden. 


Über die Varianzen der Schätzer lassen sich schwer allgemein gül- 
tige Aussagen machen. LIU et al. führten für den trichotomen Fall 
einige Beispielrechnungen durch und kommen zu folgenden Aussagen 
über die Varianzen. 


al Für m, <m <m fällt die Varianz bei steigendem m, C.p. 


1 2 
b) Für mo Wu" D: steigt die Varianz bei einer Annäherung von 
m, an m, C.p., ist für Mo = 1 also am geringsten. 


c) Bei festen Anteilen der Kugelkategorien ist die Varianz bei 


der kleinsten Kugelanzahl am geringsten. 


Die Beispielrechnungen in Tabelle 4.2 zeigen im Vergleich zum 
BOURKE-DALENIUS-Modell sehr große Varianzen. In nur 3 von 39 Fäl- 
len wird eine Zusatzvarianz zwischen 1.0 und 2.0, in einem Fall 
ein v zwischen 2.1 und 3.0 erreicht. In allen diesen Fällen ist 
die Kugel der Kategorie O nur einmal vertreten, wodurch die Pro- 
tektion der Modelle eingeschränkt ist. Bedenkt man darüberhinaus, 
daß die Zusatzvarianz im BOURKE-DALENIUS-Modell bspw. für eine 
'praktikable' Auswahlwahrscheinlichkeitskombination - 


Po = 0.7, P, = 0.2 und P, = 0.1 - lediglich 1.48 ist, so sieht 


man eindeutige Vorteile für das BOURKE-DALENIUS-Modell, wenn man 
die Varianzen als Vergleichskriterium heranzieht. 


1) Vgl. LIU et al. (1975,S.330 £.). 


Tabelle 4.2: HOPKINS-III-Modell für dreiklassige Merkmale. 


+ 1 
Werte der Zusatzvarianz v (n=1) ) 


für ausgewählte Kugelkombinationen und Grundgesamtheiten. 


Kugel- 
anzahl 


Grund- 
gesamtheit 


0.333 0.333 0.333 S 5.89 | 38.25 | 73.53 
0.050 0.015 0.8 S S 1.89 | 12.51 | 35.74 
x 22.55/10.15| 8.19 | 41.66 | 91.99 | 261.26|11.03 
+ a a a 
1) v = Var Ta + Var T + Var T, - nA), an, lT (C-n) 


Quelle: LIU et al. (1975, S.331) und eigene Berechnungen. 
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4.2 UNRELATED-QUESTION-MODELLE 


Es liegt nahe, die in 3.4 vorgestellten Unrelated-Question-Mo- 


delle auf mehrklassige Merkmale zu verallgemeinern. 


So läßt sich ein k-klassiges Merkmal in k-1 alternative Merkmale 
zergliedern, von denen jedes die Zugehörigkeit zu einer der k 
Klassen angibt. (Aus den Merkmalswerten von k-1 Klassenzugehö- 
rigkeiten läßt sich dann die Zugehörigkeit zur verbleibenden 


Klasse ableiten). 


Auf die k-1 alternativen Merkmale kann man nun die Methoden aus 
Kap.3 anwenden, indem man entweder k-1 Stichprobenzur Erhebung 


1) 


der k-1 alternativen Merkmale verwendet oder in einer Stich- 
probe jeden Befragten mehrere alternative Unrelated-Question- 
Modelle beantworten läßt. 2 Da jede Antwort bei solchem Vorge- 
hen nur Information über eine Merkmalskategorie enthält, sind - 
ähnlich wie bei den Modellen vom WARNER-Typ - Modelle ergiebi- 
ger, bei denen jede Antwort Information über das gesamte mehr- 


klassige Merkmal bietet. 


Dies läßt sich dadurch erreichen, indem man dem k-klassigen sensi- 
tiven Untersuchungsmerkmal X ein k-klassiges nicht sensitives Zu- 
satzmerkmal U gegenüberstellt. Genau wie im Fall des alternativen 
Merkmals beantwortet der Befragte mit Wahrscheinlichkeit P die 
Frage nach X und mit Wahrscheinlichkeit (1-P) die Frage nach U. 
Gegenüber den Verfahren bei alternativen Merkmalen ergeben sich 
fast keine Unterschiede, so daß wir dementsprechend in aller Kürze 


vorgehen können. 


1) Vgl. GREENBERG et al. (1969a, S.536 £.). 


2) HOCHBERG (1975) schlägt ein zweistufiges Modell vor, in dem 
der Befragte mindestens soviele Fragen beantworten muß, wie 
das Untersuchungsmerkmal sensitive Kategorien hat. 
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4.2.1 Ein-Stichproben-Modelle 


Beim Ein-Stichproben-Modell muß - wie in 3.4 - entweder die Ver- 
teilung des Zusatzmerkmals gegeben sein; andernfalls sind zwei 
Antworten je Befragten notwendig. 


1) ist also 


Im verallgemeinerten SIMMONS-I-Modell (vgl. 3.4.1.1) 
die Verteilung des nicht sensitiven Merkmals U Yordır el ul 
bekannt. Die Häufigkeiten von X (T eM g reece eT 4) lassen sich 
wie in (3.55) schätzen als 

A,-(1-P)y, 


(4.25) Ti = a N i=0,1,...,K-1 r 


wobei A, der Anteil der Antworten 'i' in der einfachen Stichprobe 
mit Zurücklegen ist. 


Für die Einzelvarianzen gilt: 


Aj (17A, ) ës Kies) 


(4.26) Var Ze = REES ZS — + 
nP n 


1p) lt) 
P 


s+ (nu) n, nell 


Die Modifikationen im allgemeinen Stichprobenmodell lassen sich 
aus 3.4.1.1 entnehmen; in den Formeln sind lediglich die 7, y 


und A zu indizieren. 


Das verallgemeinerte SIMMONS-I-Modell ist - wie das Ausgangsmo- 
dell-nicht symmetrisch. Bezeichne "Of nämlich eine nicht sensiti- 
ve Kategorie von X, so läßt sich aus einer Antwort 'O' schließen, 
daß der Befragte keine positive Antwort auf eine Frage nach sensi- 
tiven Kategorien gegeben hat. 

Eine symmetrische Version gibt BOURKE 2) an, die hier für drei 

1) Vgl. GREENBERG et al. (1971) und BOURKE (1974c, S.5f.). 


2) Vgl. BOURKE (1974c, S.6ff.) bzw. BOURKE (1978b, S.199f.); 
bei BOURKE (1974c) und BOURKE (1978b, S.199-203) sind 
auBerdem noch mehrere modifizierte Modelle angegeben. 
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Kategorien exemplifiziert sei. Dem Befragten werden die Fragen 
des BOURKE-DALENIUS-Modells (vgl. 4.1.1) mit den Wahrscheinlich- 
keiten PorPy Po und die Frage nach U mit Wahrscheinlichkeit 


P3 gestellt 


3 
() P,=1): 


Position 


(0) 
(1) 
(2) 


Auswahl- 

wahr- 

schein- o 1 2 3 
lichkeit 


(P_= P und P3 = 1-P entspricht dem verallgemeinerten SIMMONS-I- 
Modell). 

Die Wahrscheinlichkeiten der Antwortvariablen (Agr Ay rAd) in die- 
sem Modell lassen sich als lineare Funktion der T; /1=0,1,2, dar- 


stellen: 


ro Po R Ve Po S VoP3 Py ü Vers To 
d = |P; + WP; Be Pa t Saz 2 
A, Po + PoP3 P] + PoP Po + GEI T3 


bzw. in Matrix-Schreibweise: 


(4.27) As Es 


Die erwartungstreuen Momentenschätzer für q sind dann: 


ED 
il 

as) 

(> 


(4.28) 


mit der Streuungsmatrix 


H 
oO 
> 
Mel 


(4.29) Din) 
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Ist das Zusatzmerkmal ein Pseudo-Merkmal, d.h., besteht es le- 
diglich aus zufällig zuzuordnenden Anweisungen 'i' zu antworten, 


1) 


so ist die Verteilung von U bekannt. Gegenüber der Verwendung 
eines tatsächlichen Zusatzmerkmals ergeben sich in diesem Mo- 
dell mit vorgegebenen Antworten Modifikationen nur im allgemeinen 
Stichprobenmodell, so auch im Fall ohne Zurücklegen. LIU/CHOW 
haben für dieses Modell ein spezielles Randomisierungsinstrument, 
die sogenannte Hopkins-IV-Urne, vorgeschlagen. 2) Die Formeln für 
das Modell mit vorgegebenen Antworten sind - nach entsprechender 


Indizierung - 3.4.1.2 zu entnehmen. 


Ist die Verteilung von U unbekannt und will man mit einer Stich- 
probe auskommen, so sind zwei Antworten je Befragten notwendig. 
Für den Fall k = 3 wird hier eine Verallgemeinerung des BOURKE- 
Modells (vgl. 3.4.1.3) vorgestellt: 


Dem Befragten werden - aus sechs Möglichkeiten - jeweils zwei Fra- 
gen gestellt: 
Position 
(0) 
Frage 1 (1) 
(2) 
(0) 
Frage 2 (1) 
(2) 


Auswahl- 

wahr- 

schein- re) 1 
lichkeit 


1) DiesesModell wurde von ERIKSSON (1973, S.111ff.) vorge- 
schlagen; vgl. die Einzelheiten in 3.4.1.2. 


2) Vgl. LIU/CHOW (1976b, S.72). 
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Bezeichnet man die Wahrscheinlichkeit, in der j-ten Frage eine 
Antwort i zu erhalten,mit ay! so ergibt sich zwischen den 


A,n,V-Werten folgender linearer Zusammenhang: 


ro ro. Po Pn Za Ee Ze To 

Au Py Se Gs "Ee Se Ze d 

ko Yo, Py Ze Pa Pay Ss Mo 
(4.30) = | 

es GE E u a Yo 

a2 rq Ee "Se Ze Fe Za Y 

Ges Se Za Ee "Së 74 "ZZ V2 


Auf der Grundlage der Gleichung (4.30) erhält man die Momenten- 
schätzer für Tv, i=0,1,2 und deren Streuungsmatrix wie in 
(4.28) und (4.29). 
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4.2.2 Zwei-Stichproben-Modelle 


Bei den Zwei-Stichproben-Modellen, die dann angewandt werden, 
wenn die Verteilung des Zusatzmerkmals unbekannt ist, können 
wir wie im vorangegangenen Abschnitt - analog dem Vorgehen bei 


alternativen Merkmalen - verfahren. 


In der optimierten Form des verallgemeinerten SIMMONS-II-Modells 
(vgl. 3.4.2.1) verwendet man eine Stichprobe zur direkten Erhe- 
bung des k-klassigen Zusatzmerkmals, in der anderen wird ein 
Unrelated-Question-Modell wie im verallgemeinerten SIMMONS-I- 
Modell angewandt. Die Schätzer haben eine größere Varianz als 

im SIMMONS-I-Modell. Eine geringere Schätzervarianz läßt sich 
durch Verwendung von zwei Zusatzmerkmalen erreichen; diese Ver- 
allgemeinerung des FOLSOM-Modells (vg1.3.4.2.2) ist wie in den 


vorangegangenen Fällen trivial. 


- 154 - 


4.3 VERGLEICH DER MODELLE 


Der Vergleich der Modelle zur Schätzung der Häufigkeitsvertei- 
lung eines mehrklassigen Merkmals soll hier auf die beiden wich- 
tigsten Modelle, das BOURKE-DALENIUS-Modell und das verallgemei- 
nerte SIMMONS-I-Modell, beschränkt werden. 

Um die Darstellung zu vereinfachen, werden die Vergleiche für 
ein trichotomes Merkmal durchgeführt. Als Vergleichskriterium 
verwenden wir als Maß der Gesamtvarianz der Schätzung die Summe 
der Varianzen der Schätzer (Ti), was gleichbedeutend mit der 
Spur der Streuungsmatrix der îi ist, wobei für den Vergleich die 


Spur der Zusatzstreuungsmatrix entscheidend ist. 


Um einen Überblick über die Größe der Zusatzvarianz zu erhalten, 
geben wir die Werte für das BOURKE-DALENIUS-Modell und für zwei 
spezielle SIMMONS-I-Modelle - im ersten Fall wird v‚=1,,1=0,1,2, 
im zweiten GB Te Ef 1/3 gesetzt - an. 


Die Formeln für die Summe der Zusatzvarianzen (n=1)v* sind: 


+ 2 2 
(4.31) v => | m ea -1] 1) 
BD 3 2.52.08 
3(PO+P)+P5)-1 
i 
y., (1-,) 
+ „por t S E 
(4.32) Yuo = Gelee + poy + et 


Die Formel (4.32) vereinfacht sich in den beiden zu betrachtenden 


Spezialfällen: 2) 
2 2 
i+ „ jor. 2 ee 
(4.33) vug = 52 ato 7, (1-7,) Cy, Tai 0,1,2] 


1) Vgl. (4.22). 
2) Vgl. zum ersten Fall HORVITZ et al. (1976,S.186). 
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2 
II+ _ 2(1-P) S BS 
vuo = SCH [y. 1/3;i=0,1,2] 


(4.34) 


Vergleicht man das Verhältnis Antwortvarianz/Stichprobenvarianz 

in Tabelle 4.4 sowie die Werte der Antwortvarianzen für das ver- 
allgemeinerte SIMMONS-I-MODELL in Tabelle 4.3 mit den entsprechen- 
den Werten für das BOURKE-DALENIUS-Modell, so ergeben sich - vor- 
sichtig gesagt - insgesamt günstigere Werte für die beiden spe- 
ziellen Unrelated-Question-Modelle. 


Anders als bei den Modellen für alternative Merkmale, wo man mit 
der Auswahlwahrscheinlichkeit eine mögliche Vergleichsbasis hat, 
fehlt jedoch ein solcher Modellparameter beim Vergleich des 
BOURKE-DALENIUS-Modells mit dem verallgemeinerten SIMMONS-I-Modell. 


Ein formaler Vergleich erscheint somit nur auf der Basis gleicher 
Vertraulichkeit sinnvoll. Um zu einer Definition des Protektions- 
grads von Modellen für mehrklassige Merkmale zu gelangen, knüpfen 
wir an die Überlegungen von LEYSIEFFER und WARNER n an. 

Wir gehen davon aus, daß die Kategorie 'O' nicht sensitiv sei. 
Die Vertraulichkeit eines RRT-Modells kann man dann durch die maxi- 
malen Informationen beschreiben, die eine Antwort über die beiden 
Aussagen "Gehört zur (sensitiven) Kategorie i (i=1,2)' gegenüber 
"Gehört zur (nicht) sensitiven Kategorie O' enthält. Je mehr In- 
formationen i.d.S. ein Modell gibt, um so geringer ist sein Pro- 
tektionsgrad. 


Formelmäßig lassen sich diese beiden Informationen erfassen als 


L L 
P, und P3 
L P(X=1|Y=y) A 
P = max (lo = — ) - log — 
1 y=0,1,2 P(X=0|Y=y) a 
(4.35) T 
L P (X=2|Y=y) 2 
P = max log = — - log — 
2 y=0,1,2 ( P(X=0|Y=y) ) T 


1) Vgl. LEYSIEFFER/WARNER (1976). 
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Tabelle 4.3: Werte der Zusatzvarianz ve (Antwortvarianz) 


im verallgemeinerten SIMMONS-I-Modell 
KÉ = 1/3; i = E (k = 3)] 


Auswahlwkt. P 0,6 0,5 


0,156 0,375 0,694 1,185 2,0 3,5 


Tabelle 4.4: VARIANZVERGLEICH (n=1) 


Verhältnis: Zusatzvarianz (Antwortvarianz) / 


Stichprobenvarianz für das BOURKE-DALENIUS- 


Modell und das verallgemeinerte SIMMONS-I- 
Modell 


BOURKE-DALENIUS-Modell 

Stichproben- 

varianz 

m, (1-17. ) 

io = 
11,351 14,839 
5,676 7,420 
3,784 4,946 
2,838 3,710 
2,270 2,968 
1,892 2,473 


Verallgemeinertes SIMMONS-I-Modell 
(mit Vi = 1,,i1=0,1,2) 


Varianz- 


nis 
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Die Anwendung des Bayesschen Theorems ergibt: 


L P(Y=y|x=1) 
P, = max ( log SS EE) 
"eet P (Y=y | X=0) 
(4.36) 
L P(Y=y|X=2) 
Po = max ( log = = ) 
2 y=0,1,2 P(Y=y|X=0) 


Entscheidend für die Vertraulichkeit sind also die beiden 


Quotienten Ay ry : 
P(Y=y|X=1) 
Qai = max ( le) 
1 y=0,1,2 P(Y=y | X=0) 
(4.37) e 
P(Y=y|x=2) 
Qa: = max ( ee AEL) 


Je größer Di bzw. a, ist, um so geringer ist der Protektions- 
grad. Die Übersicht 4.2 gibt einen Überblick über die (bedingten) 
Verteilungen der Antwortvariablen der beiden zu vergleichenden 
Modelle. Beim SIMMONS-I-Modell ist - wie üblich - Unabhängigkeit 
zwischen X und U unterstellt. Im SIMMONS-I-Modell sind a, und 


1 
a, ohne zusätzliche Annahmen eindeutig festgelegt: 


Übersicht 4.2: Bedingte Verteilungen der Antwortvariablen 
beim BOURKE-DALENIUS-Modell und beim verall- 
emeinerten SIMMONS-I-Modell 


BOURKE-DALENIUS- Verallgemeinertes 
Modell SIMMONS-I-Modell 
P(Y=y|X=x) P(Y=y|X=x) 


P+(1-P) Yo (1-P)y, (1-P)y, 


(1-P)v, P+(1-P)y, (1-P)y, 


(1-P)y, (1-P)y, P+(1-P)y, 
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P+(1-P) Y] 
“4 Ta 
(4.38) SIMMONS-I-Modell: 
P+(1-P)y, 
*2 "(DPI 


Im BOURKE-DALENIUS-Modell liegen die Verhältnisse etwas kompli- 


ziert: 


Pa bo Oy 
a, = max (5= e P, E P, ) 
(4.39) BOURKE-DALENIUS-M. : = 
a = Per P2 Po ) 
_ P d 
2 TE TE P 


Hier sind - anders als im verallgemeinerten SIMMONS-I-Modell - 
nicht alle Kombinationen von ara, > 1 zu verwirklichen. Nehmen 


wir z.B. (0.B.d.A.) an, a. sei Po/P2 und GEERT ‚ D. ist dann 


entweder P/P} oder D in jedem Fall folgt a? 2a,. Für 

a, <a, kehren sich die Ungleichungen entsprechend um. œ4 73 kön- 
nen also im BOURKE-DALENIUS-Modell nur soweit auseinanderliegen, 
daß der kleinere Wert immer noch größer ist als die Wurzel des 


größeren Wertes. 


Für den Vergleich der beiden Modelle verwenden wir als Kriterium 


die Summe der Antwortvarianzen der Schätzfunktion Tee i=0,1,2: 


+ 


Um eine geeignete Darstellung für v im Unrelated-Question-Mo- 


dell zu erhalten, nehmen wir Stade ann vor: 
2 
I EAR 2 
Yo = u - 1 mw. (1-7,) = 
P i=O 
+ + 
(4.40) = 2 NN - To Tg Ta] = 


P 


2 SF WITT) HUT) + 


2 
(1-P) 
SESCH BE t LEE + Y Y2)] 
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wobei (3.54) verwendet wird. 


Für vorgegebene Werte von a, und a, erhalten wir aus (4.38) 


folgende Werte für oe e Yi und V3 in Abhängigkeit von (8 
P ` (a,-1) (a371) (1-9) 
1-P dE 
(a,-1) (1-p_) 
2 o 
(4.41) p, = — ns 
1 ajta 2 
m (a,-1) (1-H) 
2 a,+ra,=2 


Setzt man (4.41) in (4.40) ein, so erhalten wir: 


(zl (a,ta,-2) 1-1 
Yo = 2-1 EER SEC -1) = a = KR 
el 1 2 1 
It, Vo. (a4 #072) * 1 
(4.42) ee SIE FIO | + ——— ] 
2 (1-9) + (9471) (a,-1) (a,-1) (a,-1) 


Yo (a, +4572) 
[ 5 5 ((1-7_) (a,-1) (a--1)+a,+a_-2) + 
re) 1 2 1 2 
(louch) (a,-1) 


1-7 1-7 1 
+ =e | 
2 (a,-1) (a,-1) 


Da ajra >l ist n bei vorgegebenem Protektionsgrad (ajra) für 


Yo = O minimal. 


Im optimalen verallgemeinerten SIMMONS-I-Modell ist also vo zu 
wählen; dies entspricht der Wahl von Ņ=1 im SIMMONS-I-Modell für 


ein alternatives Merkmal. 


Im BOURKE-DALENIUS-Modell ist der Ausdruck für Ben in (4.31) 


angegeben: 
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+ 2 2 
(4.31) v = = [ —a— nn e 1] 
BD 3 2 2.2 
3(P +P,+P,)-1 
Vorgegebenes a, und a, (die die o.g. Bedingungen erfüllen), las- 


1 2 
sen sich in zwei Modellen mit den folgenden Auswahlwahrscheinlich- 


keiten realisieren: 


1 d GË 
(4.43) Modell I: --— r e 
Ita, ta, Ita, ta, ita, +a, 
& a OO 
Gai Modeli ee eee dE 
T 2 109 1 2°102 19.173 


Entsprechend gilt für ein vorgegebenes Modell die Darstellungs- 
art I oder II. 


2 
Für } p? - entscheidend für den Wert von vn - erhalten wir: 
i=O 
2 2 Ita sta, 
(4.45) Modell I: } Pi = 
i=O (1+a_+a_) 
1 2 
2 2 2 2 
2 lke Wes tae. 
(4.46) Modell II: } Pt = 
i=o } (a,+a,+0_a ‚2 
1 2 12 
2 2 
Es läßt sich zeigen, daß |) P, im Modell II immer mindestens so 


groß ist wie im Modell WE 


Das Modell II hat also eine gerin- 
gere (oder gleich große) Antwortvarianz als Modell-I - bei glei- 
chem Protektionsgrad a und ag- 

Um das verallgemeinerte SIMMONS-I-Modell mit dem BOURKE-DALENIUS- 
Modell (II) zu vergleichen, schätzen wir vi ‚ das von ËM EA 


UQ 
abhängig ist, nach oben ab, um eine für alle Werte von 


2 


ËM AE unabhängige gültige Aussage zu erhalten. Es läßt sich recht 
aufwendig zeigen, daß für Ws = D die Antwortvarianz vu im SIMMONS- 
I-Modell geringer ist als im BOURKE-DALENIUS-Modell: 
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+ + 
(4.47) Yugo = Ojaga) < Vip (%4 245) ; 

e — si : + ae eat 
die Obergrenze Yo fiir d mit Vue (le Solo 707) < Vpp(%, egal 
hängt von Di und a, ab. 
Wir stellen die Zusammenhänge im einfachen Spezialfall 
a, = 4, = a ausführlicher dar. Im SIMMONS-I-Modell ist dann 
Y = bo zu wählen, im BOURKE-DALENIUS-Modell sind ebenfalls 


die beiden kleineren Auswahlwahrscheinlichkeiten gleich groß. 


Wir untersuchen also: 


[— -4 EE E 


2 2 
3. — - 1 1-4 (a-1) a-1 (a-1) 
(2+0) 2 = 


Einige Umformungen ergeben: 


2 3 (2 (a+1) + 2a-1) 
(a-1) (a-1) iY. 
(4.48) u s BEEN J 
° oO ” at2 "Te 
Für a>1 ist Yo = 1/3, für +0 Vo = 0. 


Aus (4.48) kann man also für den durchaus realistischen Spezial- 
fall, daß die beiden sensitiven Kategorien gleich stark ge- 
schützt sind, ablesen, unter welchem Wert Yo im verallgemeiner- 
ten SIMMONS-I-Modell liegen muß, damit dieses Modell eine ge- 
ringere Antwortvarianz v als das BOURKE-DALENIUS-Modell hat. 


Die vorausgegangenen Überlegungen haben - wie bei einem alterna- 
tiven Merkmal - gezeigt, daß das Unrelated-Question-Modell bei 
gleichem Protektionsgrad zumindest mit Yo = O dem BOURKE- 
DALENIUS-Modell vorzuziehen ist. In der Tabelle 4.5 sind einige 


Tabelle 4.5: 


BOURKE- 

DALENIUS- 

Modell 
(II) 


Verallg. 
SIMMONS-I- 
Modell 
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Verhältnis der Zusatzvarianz ve des optimalen 
verallgemeinerten SIMMONS-I-Modells (Maximal- 
wert) (Yo = O, Ob = 1/2, Po = 1/2) zu der des 
BOURKE-DALENIUS-Modells (Minimalwert) bei 
gleichem (inversen) Protektionsgrad 


Roe, = Ug = A 
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Vergleichswerte zusammengestellt. 


Die allgemeinen Bedenken gegen derartige Vergleiche sind die- 


selben, die schon bei der Behandlung alternativer Merkmale an- 
geführt wurden. 
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> MODELLE ZUR SCHÄTZUNG DES MITTEL- 
WERTS QUANTITATIVER MERKMALE 


Sensitive Merkmale - wie z.B. das Einkommen - können auch quanti- 

tativ skaliert sein. Wir werden uns hier - wie meist in der Stich- 
probentheorie üblich - auf die Schätzung der Mittelwerte bzw. Merk- 
malssummen und die Ermittlung der Varianzen der Schätzer beschrän- 


ken. 


Die Schätzung der Wahrscheinlichkeitsfunktion eines diskreten Merk- 


mals erfolgt mit den in 4 dargestellten Modellen. 1) 


Die Möglich- 
keit der Schätzung der Verteilung eines stetigen Merkmals mittels 
RRT behandelt POOLE (1974) innerhalb eines multiplikativen Mo- 


dells, das in 5.2 dargestellt ist. 


Von den bisher behandelten Modellen läßt sich das Unrelated 
Question-Modell auch bei quantitativen Merkmalen anwenden. 

Daneben kann man durch Addition bzw. Multiplikation einer Zufalls- 
zahl den tatsächlichen Merkmalswert so verschlüsseln, daß eine si- 
chere Rekonstruktion unmöglich ist. 

Schließlich behandeln wir ein interessantes Modell, das im Gegen- 


satz zu den anderen mit dichotomen Antworten arbeitet. 


5.1 UNRELATED-QUESTION-MODELLE 


Bei der Behandlung der Unrelated-Question-Modelle für quantita- 
tive Merkmale können wir uns am Vorgehen in 3.4 orientieren. 


Bei den Ein-Stichproben-Modellen, bei denen die Verteilung bzw. 


der Mittelwert und die Varianz des Zusatzmerkmals bekannt sein 


2) 


muß, kann anstelle eines erhebbaren nicht sensitiven Merkmals 


1) Das BOURKE-DALENIUS- und das HOPKINS-III-Modell sind jedoch 
nur bei Merkmalen mit endlichem Wertevorrat anwendbar. 


2)) Vgl. GREENBERG et al. (1971, S.247). 
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auch ein Pseudomerkmal verwandt werden (Modell mit vorgegebenen 
Antworten) . |! Ist die Verteilung des Zusatzmerkmals unbekannt, 

so sind zwei unabhängige Stichproben notwendig. 2) 
In allen Fällen ist das Zusatzmerkmal so auszuwählen, daß seine 
Ausprägungen im gleichen Bereich wie die des Untersuchungsmerk- 


mals liegen. 


5.1.1 Ein-Stichproben-Modelle 


Das SIMMONS-I-Modell wird folgendermaßen für quantitative Merk- 
male verallgemeinert: 


Das Untersuchungsmerkmal X und das Zusatzmerkmal U seien stetige 
Zufallsvariable mit den Dichten m(x) und y(u) (bekannt). Die 
Randomisierungsvariable Z ist eine Bernoulli-Variable mit der 
Verteilung B(1,P). Mit Wahrscheinlichkeit P hat ein Befragter 
die Frage nach X, mit Wahrscheinlichkeit 1-P die Frage nach U 


zu beantworten. Die stetige Antwortvariable Y ist - wie in 


(3.53) - mit X, U und Z folgendermaßen verknüpft: 

(5.1) T: N, x H x {0,1} +a, 
(x,u,z) » y= zx + (1-z)u 

Nach (2.8) können wir die Dichte von Y - $(y) - ermitteln: 
8 4) 

(5.2) o(y) = Prly) + (1-P)y(y) . 


1) Vgl. ERIKSSON (1973, S.104-111). | 
2) Vgl. GREENBERG et al. (1969b) und GREENBERG et al. (1971). 
3) Vgl. GREENBERG et al. (1971). 


4) Für X oder U diskret gilt - nach (2.3) - (5.2) analog. 
Dies gilt auch für die folgenden Formeln. 
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Die Verteilung von Y ist also eine Mischung (Aggregation) der 
Verteilungen von X und U. Der Erwartungswert und die Varianzen 
von Y ergeben sich damit aus den entsprechenden Parametern von 
U und X: 


(5.3) Be = Puy + (1-P)u, 
ST A 2 = 2 _ _ 2 
(5.4) Get = Po_ + (1 ER + P(1 P) (hy Ku) 


Aus (5.3) läßt sich der Momentenschätzer für D. ableiten: 


De: (Pin, el 
(5.5) po = Æ mith = - Y. 
x P y n jeg tH 
mit der Varianz 
a of 1-P 2 o? 2 
(5.6) Var Tan = Y= E A (o) + — + (u Eu) ) ' 
nP n nP P 
die durch (5.7) erwartungstreu geschätzt wird. 
(e, 91? 
a. & ies + 
(5.7) Var H. = 5 
n(n-1)P 
\oo 
F 2 7 1\' fo 
Mit 2 = IR e Q = R und o ={ } 
(x,u) y zZ 
o’, Ai 
können wir folgendes lineare Modell formulieren 
Hr 
(5.8) Y; = (P 1-P) + Ui i = Ieren e 
Hu 
bzw. 
(5.9) Y; T Puy, = Pu, + Uy i = je, 


Man sieht leicht, daß der KQ-Schätzer für H. mit dem Momenten- 


schätzer übereinstimmt. 


Bei der Anwendung des stichprobentheoretischen Ansatzes 
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lassen sich wie in 3.4.1.1 keine erwartungstreue Schätzwerte für 
X ies finden, weshalb man unmittelbar von den Antwortwerten 
auszugehen hat. 


Im allgemeinen Stichprobenmodell erhalten wir als Schätzwert für D. 


bh -(1-P)p 
Y H 


DS ët u : ~ _ 
(5.10) H. = P mit Hy = 


Aus (2.42) erhält man die Varianz von f: 


= [Var 
N 


5.11 Var u 
( ) géi 


N 
i a i ea + 


N 
2 2 
L EWS ° P(1-P) (x,-u,) ] 


1 
2P(1 P) Cov (J 


+ 


Fiir die Varianz von D ergibt sich damit 


2 

~ L_ ad (1-P) ad 

Var H = Var B + SESCH Var Da + 
2(i-P) -d d 
(5.12) + 5 Cov (ny i ku) + 
N 
(1-P) _ 2 2 
+ 5 2 (x. u)“ EW; 
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Verwendet man zur Schätzung von (5.12) die - nur bei nichtsto- 


chastischen y-Werten erwartungstreue - Schätzfunktion 


a varða 
(5.13) Yard = ; 
x 2 
P 
so ist diese verzerrt: 
: „„A- _ _ 1-P 2 » 2 _ 2 
(5.14) Bias Vär Bo = -NP ES 2054 + oF + (uy uw) ) 


Verfügt man (im Fall der Anwendung eines Multiple-Trial-Modells) 


uber erwartungstreue Schatzfunktion o für SCH so läßt sich die 


m 


Varianz von A, erwartungstreu schätzen: 


Var ji 1 y 2 
(5.15) vâr fi. = D Sup W. an. 
x p2 np? ies iS i 


Für die einfache Stichprobe ohne Zurücklegen erhalten wir folgen- 
de Ergebnisse 


1 -(1- 
i = D Lë u 
(5.16) H. = P 
1 N-n ,_2 . (1-P)? 2. 2(1-P) 
(5.17) Var a, = - — [oy + 5 oF + ss 
n N-1 P P 
Stichprobenvarianz 
1-P , 2 2 
nP (o, 20u Be dii Hy)? ) 
Antwortvarianz 
e 8 29 a 
Die Schätzung S, (uy) 
T (y,-¥)? nen 
a2,- ı _ i€S 
(5.18) Sj (n,) [es ee 
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ist nicht erwartungstreu und hat die negative Verzerrung von 


(5.14); vernachlässigt man den Korrekturfaktor, so ist diese 
2 
2 
Die Varianz des Schätzers läßt sich also im 


neue Schätzfunktion § 
positiven Bias. u 
SIMMONS-I-Modell für quantitative Merkmale ohne zusätzliche In- 


(u,) ebenfalls verzerrt - jedoch mit einem 


formationen nicht erwartungstreu schätzen. 


Im Unrelated-Question-Modell mit vorgegebenen Antworten wird 

das Zusatzmerkmal als ein Pseudomerkmal aus dem Randomisierungs- 
vorgang heraus generiert, in dem der Befragte mit Wahrscheinlich- 
keit P die Frage nach dem Untersuchungsmerkmal beantwortet und 
mit Wahrscheinlichkeit (1-P) eine - wiederum zufällig bestimmte - 
vorgegebene Antwort zu geben hat. 

Dieses Modell wird mit einer Kartenmischung als Randomisierungs- 
vorrichtung für diskrete quantitative Merkmale vorgeschlagen, 2) 
kann jedoch mittels eines Rouletts auch für stetige (beschränkte) 


Merkmale verwandt werden. 


Am zweckmäßigsten formuliert man die Modellstruktur wie in 
3.4.1.2 mit zwei unabhängigen Randomisierungsvariablen Z1 und 
2, : Z : B(1,P), Zo (Pseudomerkmal) mit vorgegebenem Erwartungs- 


wert u_ und Varianz ei. 
u u 
Für die Antwortvariable Y gilt dann: 


(5.19) Y = ZX + (1-2,)2, 

Für eine unabhängige Zufallsstichprobe gelten die gleichen Er- 
gebnisse wie für das entsprechende SIMMONS-I-Modell. Unterschie- 
de werden erst bei der stichprobentheoretischen Behandlung deut- 
lich: 

Hierzu seien einige wichtige Formeln zusammengestellt: 3) 
1) Vgl. (2.54) und (2.55). 

2) Vgl. ERIKSSON (1973, 8.105). 

3) Vgl. in etwas anderer Darstellung ERIKSSON (1973, 8.105). 
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(5.20) E,Y, = PX; + (1-P)u, ies 
(5.21) EY; = Pu, + (1-P) u; 
(5.22) Var, Y, = E „Y? - (E_Y ‚2 = 

` ) 2 i 2 i 2 i 


2 2 2 2 
x,P +(1-P) (0 + ua?) = (x, P + (1-P)u,) 


_ _ 2 _ 2 
= (1 P) (oi + P(x, Ha) ) 


_ _ 2 2 _ 2 
(5.23) EĮVar Y; = (1 P) (Po, + GH + Pin, Hl ) 
_ n22 
(5.24) Var,E,Y, = P GC 


Aus (5.23) und (5.24) erhält man die Varianz von H 
(5.25) Var Y. = Po + (1-P)o + P(1-P) (u-u)? ies 
° i x u x u ° 


Anders als im SIMMONS-I-Modell läßt sich hier ein erwartungstreu- 


1) 


er Schätzer x; für x (ies) angeben: 


Y,-01-P)n, 


x. DEE EEN i€s 


(5.26) 


Mit (5.26) können wir im allgemeinen Stichprobenmodell (ERIKSSON- 


EI 


Ansatz) einen erwartungstreuen Schätzer D. für H. angeben: 


004 
(5.27) en WR mit 
LES 
a 11-P Ñ 2 2 2. 3 
(5.28) Var fy = Var, fy + <2 SS 2 + GE Te ) 


In (5.28) repräsentiert der erste Varianzbestandteil die Stich- 
probenvarianz, der zweite die Antwortvarianz. 
Bei der Schätzung der Varianz geht man am besten direkt von den 


1) Vgl. ERIKSSON (1976a, S.16). 
2) Vgl. ERIKSSON (1973, S.106). 
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y-Werten aus (Antwortvariablenansatz). 


Die erwartungstreue Schätzung der Varianz erfolgt im Multiple- 


Trial-Modell nach der Formel 


2 
var? a eo 
(5.29) Var A, = EE + 
P N“P 
d 1 ei = i <= 
mit Var Vu = — 1 , (Y. =o 5 Y, ) und 
N inj ij i j i k ye, I 
k 
eee) EE ies 


wobei Yay die Antwort des i-ten Befragten beim v-ten Versuch ist. 
Da im einfachen Modell (k=1) jedoch kein vernünftiger Schatzer 


ae o e , ix 
ö, zur Verfügung steht, ist ein verzerrter Schätzer zu verwenden. 


d vardı 
(5.30) vâr fi, = mit der Verzerrung 
x p2 
N 
(5.31) Bias vëct, =- = J of ` 
NR i=1 > 
OR 2 -u AS 
= NP [ SC" Ba * Sg (uy D, 


Abschließend sei das einfache Stichprobenmodell ohne Zurücklegen 
diskutiert und einige Vergleiche mit dem SIMMONS-I-Modell vor- 


genommen: 
Die Schätzung von H. erfolgt mittels des Stichprobenmittelwertes 
der Antwortvariablen: 


(5.32) i= (l Ue ta 7 mn 
1 


Die Varianz des Schätzers läßt sich wie folgt in Stichproben- 
und Antwortvarianz aufspalten: 

De N-n 1-P o 
(5.33) Var A, "u. E 


1) Vgl. ERIKSSON (1973, 5.106). 
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Vergleicht man (5.17) mit (5.33), so sieht man die unterschied- 
liche Aufteilung der Varianzen in Stichproben- und Antwortva- 
rianz. Das SIMMONS-I-Modell hat eine größere Stichprobenvarianz 
als das Modell mit vorgegebenen Antworten, bei der Antwortva- 
rianz sind die Verhältnisse umgekehrt. Wegen der Endlichkeits- 
korrektur in der Stichprobenvarianz ist insgesamt die Varianz 
bei SIMMONS-I-Modell etwas kleiner. Da jedoch die Antwortvarianz 
im Modell mit vorgegebenen Antworten größer ist, hat dieses Mo- 
dell in der Multiple-Trial-Version (k 2 2) eine geringere Va- 
rianz als das SIMMONS-I-Modell. 1) 


Zur Schätzung der Varianz (5.33) kann man zwei - verzerrte - 


Schätzfunktionen (ViVa) benützen: 


Im N-n 
ies 


(5.34) Vi oe rare und (entspricht (5.30)) 
P’n(n-1) n 
I Dok 
(5.35) V5 = E 
P’n(n-1) 


Für die Verzerrungen gilt: 


. yd 1-P 2 2 _ 2 
(5.36) Bias V] = NP Le" oF + Oy + (uy Ha? ] und 
2 
g 
. x 2) 


Die Berücksichtigung des Korrekturfaktors bringt also eine ne- 
gative Verzerrung, während seine Vernachlässigung einen positi- 


ven Bias bewirkt. 


1) Vgl. ERIKSSON (1976a, S.17). 
2) Vgl. ERIKSSON (1973, S.111). 
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5.1.2 Zwei-Stichproben-Modelle 


Istdie Verteilung des Zusatzmerkmals unbekannt, so sind zwei 
Stichproben (Umfdnge n,n) mit unterschiedlichen Auswahlwahr- 
scheinlichkeiten (P4 P3) für die sensitive Frage zu a. 
In diesem SIMMONS-II-Modell für quantitative Merkmale können 
wir die wichtigsten Formeln wie in der homograden Version ange- 
ben: 

Für die beiden Stichproben gelten (5.3) und (5.4): 


(5.38) wo. = Piuy + (Pin, 
i=1,2 
2 2 2 
P.o, + (1-P,)o, + P,(1-P,)(n, Hl 


(5.39) o 


Aus (5.38) läßt sich - nach der Momentenmethode - der Schätzer 


für H. ableiten: 


(1-P,)a 17 (1-P,)a 2 


(5.40) ü = Y 
x E, P, 
mit der Varianz BE = 
2_ y1 2 y2 
(1-P,) + (1-P,) 
` Di 1 no 
(5.41) Var u, = 
x 2 
d béi 


Der KQ-Schätzer entspricht dem Momentenschätzer. 2) Zur Ablei- 
tung eines ML-Schätzers sind spezielle Annahmen über die Vertei- 


lung von X und U notwendig. 


Im allgemeinen Stichprobenmodell ist (5.40) mit den Schätzfunk- 


tionen 


1) Das SIMMONS-II-Modell für quantitative Merkmale wurde erst- 
mals in GREENBERG et al. (1969b) dargestellt; vgl. auch 
GREENBERG et al. (1971). 


2) Vgl. GREENBERG et al. (1971, S.245). 


(5.42) sg fi MAN, i=1,2 


zu verwenden. Die Aufteilung der Varianz von D. in die Stichpro- 
ben- und Antwortvarianz erfolgt analog (3.99/100) nach (5.43) 
und (5.44): 


a. u 1 _ 2 a _ 2 S 
(5.43) Var, Eh, er {(1 P,) Var Eo, + (1 P,) Var ,E 2} 
(P,-P.) 
1 2 
mit 
7 _ n2 ad _ 2 ad 8 -d -d 
Var kee? = Pi Var Uzi + (1 P.) Var Wd + 2P (1 P,)Cov(n, sou 
i = 1,2 
an ` (1-P,) (1-P,) N > 2 
Evari S eee a a a 
N (P,-P,) KEN 
1 2 
N 
2 2 
EE KE Ee ] 


Die Varianz von Tan wird analog (3.101) geschätzt: 


Be run, 2 2 a = KENE 
(5.45) Var p= 5 fN P,) Varn + (1 P,) Var Hy! 


X 
(P,-P.) 


Fiir die einfache Stichprobe ohne Zuriicklegen erhalten wir folgen- 
de Ergebnisse: 


g (1-P,)ū , - (1-P,)u 
(5.46) ü = — 2 _ yl ___ 1 y2 mit 


dëi 


ui 


) 
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(5.47) Var u = sg {o 


2 2 2 
Po(1-P,) N-n , P,(1-P,) (1-P,) . 


n, N-1 n, 


2 
Po(T=P,) (1-P,) 
| | 
na 


2 2 
2 (1-P,) (1-P,) N-n 


i Su ny f N-1 


2 2 


> 
P.(1-P,) (1-P.)2  PLU-P) (1-P,) 2 
1 1 2 2(1-P, 1 


Ben 1 4. TA 
Di n, 


2 2 
P_(1-P,)(1-P,) , Po (1-P,) (1-P,) + 


n 


SEA 


+ (u Ey) , 


2 
(1-P,) P,(1-P,) 1-n 


+ 2 Coy nn " dee 


2 
P, (1-P,) (1-P,) I-n, 
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Bei der Stichprobenplanung sind insbesondere die Aufteilung des 


gesamten Stichprobenumfangs n = n,*n, auf die beiden Stichproben 


und die Wahl der Auswahlwahrscheinlichkeiten zu entscheiden. 


Die varianzminimale Aufteilung des Gesamtstichprobenumfangs er- 


gibt die Bedingung (5.49): 


n o .„(1-P,) 
1 ea 
— KS 94201721) 


m = _ 2 cs 
Für P,=0 (vgl. unten), sowie D. = Du und o 7I 


als Anhaltspunkt das optimale Verhältnis n,/n, 


ermittelt man 
1/01-P,) ; in 
diesem Fall ist die erste Stichprobe immer größer als die zweite 


zu wählen. 


Bei der optimalen Aufteilung vereinfacht sich die Varianz aus 
(5.41): 


_ EOR Jo. + (1-Py)a 417 
(3.50) var H = —ji 2 70 
S n(P,-P ‚2 
1 2 
mit n =n +n, und der Aufteilung (5.49) 
Nimmt man o.B.d.A. an P,>P, , so läßt sich wie im homograden 
Fall zeigen, daß Var fi, /9P,>0 ; d.h. fiir P3 = O wird ein minima- 


ler Varianzwert erreicht. Die zweite Stichprobe sollte also nur 
zur Erhebung des Zusatzmerkmals verwendet werden. 

Wie das SIMMONS-II-Modell im homograden Fall läßt sich auch 

das FOLSOM-Modell mit geringen Modifikationen auf den heterogra- 
den Fall übertragen. 


Die Grundidee des FOLSOM-Modells-in 3.4.2.2 dargestellt - liegt 

in einer zweifachen verschränkten Anwendung des optimierten 
SIMMONS-II-Modells. 

Bezeichnen wir mit den Indices die Fragen (1. erste Frage randomi- 
siert, - Auswahlwahrscheinlichkeit P - , 2. Frage direkt nach 


Zusatzmerkmal) und die Stichprobe mit eingeklammerten Nummern, 
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so erhalten wir aus jeder Stichprobe folgendermaßen einen Schätz- 
wert für u 
x 
u, (1) - (1-P)u,(2) 
ü. (1) Au. 2 
x P 


` #12) - (1-P)u,(t) 
z a i 


(5.51) 


Als Schätzer für H. verwendet man eine Linearkombination von 


uy (1) und DE 


(5.52) H, = wy) + (T-wWu,t2) ’ 

für die das varianzminimale Gewicht w folgende Bedingung erfüllen 
muß: 

Var u (2) - Cov (u (1), u (2)) 


(5.53) Woa ceee e a 
Var u (1) + Var ü (2) - 2 Cov (u (1) ,u,(2)) 


Bei optimalen Gewicht w ergibt sich aus der allgemeinen Beziehung 


für die Varianz von H. 


2 ` 
w Var u (1) + 


(5.54) Var H. 


è (iev) var B (2) +2w(1-w) Cov (ñ (1) 8.121 


mit w= w 


Var a, (1) Var â (2)-Cov(a (1) 8. (2))? 
(5.55) Var (Bro e Taaa a aa a a 
P Var a (1)+Var A (2)-2 Cov (A, (leg, (2)) 


Da die Varianzen zur Bestimmung des optimalen Gewichts in (5.53) 
nicht bekannt sind, muß man sie nach (5.7) schätzen. Für die 


Kovarianz von m und a, (2) gilt: 
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Cov (p (1) pny (2)) = 


(5.56) 
` P-1 on) , Cov(Y,(2),Y,(2)) 
p? n ng 


wobei Cov (Y, (i), Y,i)), i=1,2, mit (5.57) erwartungstreu 
geschätzt werden: _ 
(5.57) iis. (X45 G) -¥, G) (%3; (4) -Y3 G)) 


~ l ; _ i Ka 
Cov (Y, (i) ,¥, (i)) J i=1,2 


Mit zwei Fragen in jeder Stichprobe kann also das SIMMONS-II- 
Modell in seiner optimalen Form (P, =0) durch das FOLSOM-Modell 


noch verbessert werden. 
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5.2 DAS ADDITIVE UND DAS MULTIPLIKATIVE MODELL 


Zur stochastischen Verschlüsselung eines quantitativen Merkmals 
bietet sich die Verknüpfung mit einer Zufallszahl an, deren Ver- 
teilung bzw. Verteilungsparameter bekannt sind. Als die einfach- 
sten Fälle werden hier die Addition und Multiplikation mit einer 
Zufallszahl behandelt. Der Befragte addiert bzw. multipliziert 
also seinen Merkmalswert, z.B. sein Einkommen, mit einer Zufalls- 
zahl, die etwa mit Hilfe eines Taschenrechners generiert wurde, 
und teilt dem Befrager lediglich die Summe bzw. das Produkt der 


beiden Werte mit. 12 


Im additiven Modell bestehen zwischen der Untersuchungsvariablen 


X mit GE EX und of : = Var X, der von X unabhängigen Randomi- 
sierungsvariable 2 mit H, = EZ und o? : = Var Z und der Antwort- 


variablen Y folgende Zusammenhänge: 


(5.58) Y=X+Z 

(5.59) = u tyu 
Ey 

(5.60) SE = of + ae 
y x Z 


Aus (5.59) läßt sich sehr einfach der Momentenschätzer für SÉ 


der im übrigen auch KQ-Schdtzer ist, ableiten: 


(5.61) fo =f -u ER = .) 


x 
ies 1 


H. hat die Varianz 
(5.62) Vari = ——— e 
x 


die durch (5.63) erwartungstreu geschätzt wird: 


1) Zum additiven Modell vgl. POLLOCK/BEK (1976, S.885); 
zum multiplikativen Modell POOLE (1974) und POLLOCK/BEK 


(1976, S.885); vgl. auch HIMMELFARB/EDGELL (1980), die das 
additive Modell für bestimmte (diskrete) Verteilungen 
von Z betrachten. 


(5.63) Var u = 


Im allgemeinen Stichprobenmodell hat der Schätzer (5.61) mit 
N 


= f 
D = iN Re folgende Varianz 

: 1 S a 
(5.64) Var u, = a [Varat L Wila + u) = RR S 


die mit (5.65) erwartungstreu geschätzt werden kann: 
s2 

~~ _ va d « Z 

(5.65) Var to Var Hy TI ` 

Im ERIKSSON-Ansatz erhalten wir mit 

(5.66) x. = Y, =- H i€s 


den erwartungstreuen Schätzer 


, N 
(5.67) te ay R 


WX, e 
1 


der die Varianz (5.68) besitzt 
~ .d 1 

(5.68) Var u. = Var UL + — 0 
x x N2 

und durch (5.69) erwartungstreu geschätzt wird: 

n a 2 d,a 

(5.69) Var u. = — Var X (x 

N 
Im einfachen Stichprobenmodell ohne Zurücklegen erhalten 


wir folgende Formeln: 


(5.70) UL = 


2 2 
8 GES N-n Be 
(5.71) Var a E ae 
=) 2 
Ge ee a 


Im multiplikativen Modell sind X, Z und Y wie folgt verknüpft: 


(5.73) Y= X-Z 
(5.74) Hy = Ba" Hz 

2 _ 22 2 2 2 2 1) 
(5.75) on = Wf + Uz t ER 


` M 
(5.76) u, = Ma ; u. +0 


hat die Varianz 


g 1 > o (pn, + 0%) 
(5.77) Var Be S XS = — (o, + 5 ] 
nu, n S 


Im allgemeinen Stichprobenmodell fallen der Schätzer (5.76) (Ant- 
wortvariablenansatz) und der ERIKSSON- Schätzer zusammen. Die 
Varianz des Schätzers wird in (5.78) in die Stichproben- und in 


die Antwortvarianz zerlegt: 


e 1 N 

=- _ ~d z 2 2 S 

(5.78) Var H, = Var uy + 5° 5 a EW; x, ; 
Hz N i=1 


sie wird - verzerrt - geschätzt durch: 


(5.79) vâr i, = — mit 


1) Vgl. POLLOCK/BEK (1976, S.885). 
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(5.80) Bias Var My, = 


Im Stichprobenmodell ohne Zuriicklegen erhalten wir hier folgen- 


de Formeln: 


La 
(5.81) i. = = 
x nu, 
= o? N-n o (u? + o) 
(5.82) Var Bee DES 3 + 5 
n n-1 De HU 
zZ 
) (¥,-¥) N-n -02 (u2+02) 
ER jeg 2 l SEN SCH xX 
(5.83) (Var Wd, ee ey Bias (Var khs 5 
n(n-1)y N N Hz 
) Ma 120% 
ao a 13 , ie 
(5.84) (Var Ta = u , Bias (Var Wy) > = 
n(n-1)u, N-1 
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5.3 DAS DALENIUS-VITALE-MODELL 


Ein interessantes Modell zur Schätzung des Mittelwerts eines 
beschränkten quantitativen Merkmals entwickeln DALENIUS/VITALE. |? 
Aus dem Intervall I = [O,b]J, in dem das (evtl. geeignet trans- 
formierte) Untersuchungsmerkmal X Werte annehmen kann, wird für 
jeden Befragten eine in I gleichverteilte Zufallszahl ermit- 
telt, 2) die der Befrager nicht erfährt. Der Befragte hat ledig- 
lich zu antworten, ob sein Merkmalswert x größer als die Zu- 
fallszahl z ist (y = 1) oder nicht (y = O). Aus dem Anteil der 
Ja-Antworten (À) in der Stichprobe kann man dann den Mittelwert 


H. schätzen. 


Zwischen der bernoulliverteilten Antwortvariablen Y und der 
stetigen Randomisierungsvariablen Z mit GÉIE = z/b bzw. der 
stetigen Untersuchungsvariablen X mit dem unbekannten Mittelwert 


3) 


H. bestehen folgende Zusammenhänge: 


(5.85) T: [0,b]J x [0,b] + {0,1} 


1; 8? zZ 


Die Bernoulliverteilung der Antwortvariablen Y = T(X,Z) hat den 


Parameter 


1) Vgl. DALENIUS/VITALE (1974). 


2) Als Randomisierungsmechanismus kann bspw. ein Roulette 
oder ein elektronischer Zufallsgenerator verwendet 
werden. 


3) Für diskrete Variable X und Z vgl. die Ableitung bei 
DALENIUS/VITALE (1974, S.4f.). Auch bei einer Kombi- 
nation einer diskreten und einer stetigen Variable 
erhält man A = w/b. 
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(5.86) A: P(Y=1) = [2,00 £, (2) axaz 
TIH 


[£, (x) £, (z2) axaz = 


X>Z 


b x i 
| f(x) ( | f(z) dz) dx 


H ro) 
“Eee 
F(x) = x/b 
b u 
- 1 e X 
SC fx f (x) dx = ap 
ro) 


Aus (5.86) leitet man den Momentenschätzer (und KQ-Schätzer) 


Wy ab. 


(5.87) ib =Äb e 


der die Varianz (5.88) hat: 
2 
b X (1A) H. (P-e) 


(5.88) Var H. = u ae = DE an S 


Eine erwartungstreue Schätzung von (5.88) ist 


2> a 
=». _ bBAU-A) 
(3.89) Var u, nel 


Im ERIKSSON-Ansatz erhält man mit 


(5.90) x, = bY, i€s 
den RRT-Schätzer 

S b N 
(5.91) Ben L W.Y. i 
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der mit dem Antwortvariablenansatz übereinstimmt und die Va- 
rianz (5.92) hat: 


S d a ı N 2 
(5.92) Var u, = Var u, + È EN, x, (b-x) 


(5.92) wird verzerrt durch (5.93) geschätzt: 


~ a _ ,2 + d + ' 
(5.93) Var H. = b“ Var e mit 


: an 1, 2 
(5.94)BiasVar H. GK + u(b-n,)) e 


Im Spezialfall der einfachen Stichprobe ohne Zurücklegen erhal- 
ten wir folgende Formeln: 


~ b 
(5.95) u == }] Y 
x n ‚es i 
L o? N-n u (bÞ-u 4) 7 o 
(5.96) Var H. = ES . N-1 + Ai = 
oi 1-n u (bp) 
n N-1 n ° 
2 | o cu (bn? 
2 _ b N-n ën. e Ae E x x 
(5.97) S] = BT’ N à (1-A) „ Bias Ss, = N 
Be BE 
2 _ b’/A(1-A) A 2 x 
(5.98) S5 Pr ‚ Bias 5, = 
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5.4 VERGLEICH DER MODELLE 


Wir beschränken den Vergleich auf folgende Modelle zur Schätzung 
als Mittelwert eines quantitativen Merkmals im einfachen Stich- 
probenmodell mit Zurücklegen: Unrelated-Question-Modell mit vor- 
gegebenen Antworten (entspricht dem SIMMONS-I-Modell mit unabhängi- 
gem Zusatzmerkmal, dessen Verteilung bekannt ist), additives Mo- 
dell, multiplikatives Modell und DALENIUS/VITALE-Modell. 


Für die Zusatzvarianzen (v") der Mittelwertschätzer, d.h. 
Vv’ = Var D - on, ergeben sich aus (5.6)/(5.33), (5.62), (5.77) 
1): 


und (5.88) folgende Formeln (für n 


g2 
+ 1-P 2 u 
P 


a Iep _ 2 
(5.99) SIMMONS-I-Modell : V = p lo, + + (uy Ku) ] 
(5.100) Additives Modell : v= o2 
P o u? o) 
(5.101) Multiplikatives M. : V = 7 
u 
Z 


(5.102) DALENIUS-VITALE-M. 


< 
d 


2 
n„(b-u,) =, 


Um zu übersichtlichen Ausdrücken zu gelangen, treffen wir die 
Annahme, daß in allen Modellen (mit Ausnahme des DALENIUS-VITALE- 
Modells) die Zusatzvariablen (U bzw. Z) so gewählt wurden, daß 
sie in Erwartungswert und Varianz mit der Untersuchungsvariablen 


1) 


übereinstimmen. Mit dieser Annahme vereinfachen sich die 


Formeln für die Zusatzvarianzen: 


2 

(5.103) SIMMONS-I-Modell s yr = = ae 
p x 

(5.104) Additives Modell s SS Ge 


1) Vgl. den gleichen Ansatz bei POLLOCK/BEK (1976, S.885). 


> 2 2 
(5.105) Multiplikatives M. : V =0_ + -n ou + Va 

u 

X 


(5.106) DALENIUS-VITALE-M. >: V Cu, (P = BEEN 

Man sieht sogleich, daß das multiplikative Modell für positiv- 
wertige Merkmale mit nicht degenerierter Verteilung immer eine 
größere Zusatzvarianz als das additive Modell hat. Das 
DALENIUS-VITALE-Modell dagegen ist dem additiven Modell über- 
legen, wenn die Varianz des Untersuchungsmerkmals (und damit 
des Zusatzmerkmals) größer ist als die Hälfte der bei gegebe- 
nem Intervall [0,b] und Mittelwert H. möglichen maximalen Va- 
rianz. Ergebnisse des Vergleichs sind in der Übersicht 5.1 zu- 


sammengefaßt. 


Auf die Problematik derartiger formaler Vergleichsaussagen wurde 
bei den anderen behandelten Modellen bereits mehrfach hinge- 


wiesen. 


Eine Berücksichtigung des Protektionsgradserweist sich jedoch 
als sehr schwierig, da die bedingten Verteilungen von X|Y = y 
von äußerst komplizierter Gestalt sind und überhaupt nur bei An- 
nahmen über die Verteilungen von X und U bzw. 2 zu ermitteln 


sind. 


Übersicht 5.1: Vergleich von Modellen zur Schätzung des Mittelwerts 
eines quantitativen Merkmals 


SIMMONS-I- Additives Multiplika- DALENIUS- 
ingere 
peas Modell Modell tives VITALE- 
Modell Modell 
Ox 
psy 2. 
` tw fN 


SIMMONS-I-Modell 


= 88l - 


Additives Modell P</2/2 > 
Multiplikatives 
Modell 


DALENIUS- 
VITALE-Modell 
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6. MULTIVARIATE MODELLE 


Bei der Anwendung statischer Erhebungen sind nicht nur die Häu- 
figkeitsverteilungen einzelner Merkmale bzw. deren Parameter 
von Interesse, vielmehr versucht man darüberhinaus mögliche Zu- 
sammenhänge zwischen Merkmalen oder Merkmalsgruppen zu unter- 
suchen. Grundlage hierfür sind die gemeinsamen Verteilungen 


(bzw. deren Parameter) der untersuchten Merkmale. 


Der RRT wurde häufig angelastet, daß sie zwar zur Schätzung ein- 
dimensionaler Häufigkeiten sensitiver Merkmale einsetzbar sei, 

jedoch bei multivariaten Fragestellungen nicht anzuwenden sei. u 
wir werden hier die Möglichkeiten der Schätzung mehrdimensiona- 
ler Häufigkeitsverteilungen diskreter Merkmale mittels der RRT 
darstellen und die Möglichkeiten, einen x*-Unabhängigkeitstest 


2) 


anzuwenden, untersuchen. Außerdem werden wir auf die Regres- 
sions- und Korrelationsrechnung mit quantitativen RRT-Daten ein- 


gehen. 


6.1 SCHÄTZUNG MEHRDIMENSIONALER HÄUFIGKEITSVERTEILUNGEN 
DISKRETER MERKMALE MIT DER RRT 


Da sich mehrdimensionale Häufigkeitsverteilungen auch als Häu- 
figkeitsverteilungen eines - entsprechend definierten - eindimen- 
sionalen Merkmals darstellen lassen, sind zur Schätzung prinzi- 
piell die Methoden zur Schätzung der Häufigkeitsverteilung eines 
mehrklassigen Merkmals anwendbar. a So können z.B. die Häufig- 
keiten einer 2x2-Felder-Tafel als Häufigkeiten eines vierklas- 


sigen Merkmals aufgefaßt werden. In der Praxis wird diesesVor- 


1) Vgl. z.B. FIDLER/KLEINKNECHT (1977, S.1047). 


2) Die Verwendung von RRT-Daten in Log=Linearen Modellen 
stellt CHEN (1978, 1979) dar. 


3) Vgl. BOURKE (1975, S.4-6). 


- 190 - 


gehen jedoch bei mehrklassigen Merkmalen und höheren Dimensionen 
sehr unübersichtlich und die Formulierung der entsprechenden Fra- 


gen sehr kompliziert. 


Als Analogie zum Vorgehen bei der direkten Befragung, ,bei der je- 
des Merkmal einzeln erfragt wird, ist bei der RRT eine mehrfache 
Anwendung univariater RRT-Modelle anzusehen, wobei die Randomi- 


1) 


sierungen unabhängig voneinander sind. Wir werden im folgen- 


den solche unabhängigen Mehrfach-RRT-Modelle 2) behandeln. 


6.2 SCHÄTZUNG MEHRDIMENSIONALER HÄUFIGKEITSVERTEILUNGEN MIT 
UNABHÄNGIGEN MEHRFACH-MODELLEN 


Grundlage der Schätzung der gemeinsamen Verteilung der Untersu- 
chungsmerkmale ist deren Zusammenhang mit der gemeinsamen Ver- 
teilung der Antwortvariablen. Um diesen Zusammenhang zu formulie- 
ren, führen wir einige Bezeichnungen und Theoreme für diskrete 


multivariate Modelle ein: 


Wir stellen die Verteilung einer Zufallsvariablen X, die m Aus- 


prägungen hat, folgendermaßen dar: 


(6.1) | =m ' by F 
wobei n dem (m,1)-Vektor der Werte der Wahrscheinlichkeitsfunktion 
entspricht und » dem (m,1)-Vektor der Punktmaße der Elemente von 


Qr mit R= {e,|i=1,...,m}. 


1) TAMHANE (1977) gibt ein Modell mit zwei Antworten an, 
durch das alle zweidimensionalen Randverteilungen der 
k(22) untersuchten Merkmale geschätzt werden können. 


2) Vgl. BOURKE (1975, S.7-11). 
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Sind zwei Zufallsvariable X, und X, unabhängig, so ergibt sich 
die gemeinsame Wahrscheinlichkeitsverteilung als Kronecker-Pro- 


dukt der beiden Vektoren rt, und 7 


1 > * 


Lemma 6.1: 


X, und X, seien diskrete Zufallsvariablen mit m, und m, Ausprä- 
gungen und den Verteilungen 


P = mp, TI p e i = 1,2 
Es gilt: 
(6.2) P 8 Bi, = (7 


wobei "ei als Operation zwischen Maßen das Produktmaß, zwischen 


Vektoren das Kronecker-Produkt bezeichnet; My 8 H. ist der 


Vektor der Produktmaße der Elemente von 1 2 
di ® N, 
1 2 
(6.3) H GH : = Ip © "ED ,._ 
x, x, Xii X04 (i EA 
Beweis: 
A; E azi i = 1,2 
P 8 P_ (A, x A,) = Pa (A,) e P (A,) = 


man By) (AQ) 


Di 
L mu by (AS) 1'8, (A3) = 
Ch 3 73 

(Bilinearität des Skalarprodukts): 


=) (Ty sm) (Hy A) > ze 


I 
ia 
® 


i SNCH 8 By Il 


= ur S al IG S Sen x Ag) A 
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Den (im Sinne einer lexikographischen Ordnung aufgebaute) Vek- 
tor der gemeinsamen Wahrscheinlichkeiten der beiden unabhängigen 


Zufallsvariablen X, und X, erhalten wir also als Kronecker-Pro- 


1 


dukt der Wahrscheinlichkeitsvektoren von X, und X). 


Wir führen nun - auf BOURKE (1976) zurückgreifend - den Begriff 
der Design-Matrix eines RRT-Modells ein: 


Läßt sich die bedingte Verteilung Q(x; -)Jder Antwortvariablen 
eines RRT-Modells bei festem x - wie folgt darstellen: 


(6.4) 0A) : = PA (Ty (A) = (P x)' WIA), Aca XER, » 


mit Io a | = : m ; 
x 


so bezeichnet man die quadratische Matrix P als Design-Matrix 


des RRT-Modells. P ist eine stochastische Matrix mit 


(6.5) d Een e? j= 1,... m 


Für das WARNER-Modell erhalten wir also die Design-Matrix Po? 1) 


P 1-P 


(6.6) P= 


1-P P 
für das SIMMONS-I-Modell (bei unabhängigem Zusatzmerkmal): 


(6.7) P, = 


Më (1-P) (1-y) 
S 


(1-P)y P+(1-P)y 


Für das BOURKE/DALENIUS-Modell ist die dort angegebene Matrix P 


die Design-Matrix. 


1) Hierbei bezeichnet x = (O 1)' die Eigenschaft A, 
x = (1 0)' die Eigenschaft A bzw. y = (O 1)' die 
Antwort 'ja', y = (1 0)' die Antwort 'nein'. 
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Bei der Erweiterung des SIMMONS-I-Modells auf mehrklassige Merk- 


male mit (k>2) Ausprägungen hat die Design-Matrix Poy folgende 
Gestalt 
P+(1-P)y, (1-P)y, e wa a A (1-P)y, 
(1-P)y, P+(1-P)y, Be ae a 
(6.8) Poy = 
MEY (1-P)y,_; P+(1-P) Yk] 


Die direkte Befragung hat die Einheitsmatrix als Design-Matrix. 


Für die gemeinsame Verteilung der Antwortvariablen bei mehreren 
Untersuchungsmerkmalen erhält man folgenden Zusammenhang, der 
von BOURKE 1) 


wesentlich kürzeren Beweis geben: 


erstmals bewiesen wurde und für den wir hier einen 


Die Design-Matrix des mehrfachen unabhängigen multivariaten Mo- 
dells ergibt sich als Kronecker-Produkt der Design-Matrizen der 


univariaten Modelle: 


Lemma 6.2 


Gegeben seien zwei diskrete univ. riate RRT-Modelle mit den Design- 


Matrizen P] und Po: 


T. : (2 x RQ ) >Q und 


GEZ = (B,x,)! By 


Für das zweifache unabhängig bivariate RRT-Modell mit 


T: = (T, T):= fQ x leer 
1 2 Ze x. i De Y.: 
i=1 i i i=1 i 


gilt: 


1) Vgl. BOURKE (1978a, 1979). 
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° = D 
(6.9) Q(x, 7X57 .) ((P, ® Po) (x, ® x,)] Ke, ® e 
Beweis: 
A, EC a i i = 1,2 


-1 
O(x,, X57 A, * Aj) =P ((T,,T,) 

=j 
= P (T (A,) x T (A,)) 


(Unabhängigkeit von Z, und Zo) 


1 


=] -1 
=P_ (T (A,)) ° P, (T (A.)) 
Z4 1X, 1 Z3 2X, 2 


(Definition der Übergangsverteilung) 


Q,(x,7A,) > Q,ix, 7 A,) 


= Q4 (x4? -) 8 Qo (x53 -) (A, x A) 
(Lemma 6.1) 


= ER) @ Bau)" In, 


(Rechenregeln für das Kronecker-Produkt) 


= 1B, @ Bali @ ml in, 


Für das zweifache WARNER-Modell 2) 


gende Design-Matrix Pwo = 


1) Vgl. Fußnote 1) S.87. 


2) Dieses Modell wird - in anderer Form - von 
BARKSDALE (1975) behandelt. 


(A, x A,)) 


8 u 


] 


© by! (A, x A,)= 


1) 


y) AAD) 


erhalten wir also z.B. fol- 
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P,P, P,(1-P,) (1-P,)P, (1-P,) (1-P,) 

P,(1-P,) PP, (1-P,) (1-P,) (1-P,)P, 
Eva" 

(PAIE: (1-P,) (1-P,) P,P, P4 (1-P,) 

(1-P,) (1-P,) (1-P,)P, P,(1-P,) P, P, 


Mit Hilfe von Lemma 6.2, das man leicht durch vollständige In- 
duktion auf k(beliebig) viele Merkmale erweitern kann, lassen 
sich ganz analog zum univariaten Fall Schätzwerte für die simul- 
tanen Häufigkeiten sowie deren Varianzen und Kovarianzen ermit- 
teln. Bezeichnet man den Vektor der simultanen Häufigkeiten der 
Untersuchungsmerkmale mit 1, der Antwortvariablen mit A, so er- 


halten wir folgende Ergebnisse: 
A. = P., q, i = 1,...,/k 


(6.10) P = 


(6.11) 


|> 
1 

kd 

E 


(6.12) ho = P À 


mit der Varianz- Kovarianz-Matrix Din 


(6.13) pin) = pr! pipe! 


Abschließend behandeln wir noch den Spezialfall eines bivaria- 
ten Designs, in dem das eine Merkmal durch die RRT (Design- 
Matrix GÉIE das andere durch direkte Befragung (Design-Matrix I) 
erhoben wird. Wir erhalten 


(6.14) T = (1 6 pT! A = (1 @ Po) bzw. 
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(6.15) R = P . i = 1;... m 


Man schätzt also die bedingten Häufigkeiten in einer Kategorie 
i des Merkmals, das man direkt erhebt, durch die Anwendung des 
univariaten RRT-Modells auf die RRT-Antworten, die in die Kate- 


gorie i des direkt erhobenen Merkmals fallen. 


6.3 DER x2 - UNABHANGIGKEITSTEST MIT RRT-DATEN 


Bei der Analyse von Kontingenztafeln - deren Schätzung aus RRT- 
Daten im vorausgegangenen Abschnitt behandelt wurde - ist oft- 
mals die Hypothese der Unabhängigkeit der Untersuchungsmerkmale 


zu prüfen. 


Für die Analyse von Kontingenztafeln aus RRT-Daten beweisen wir 
das Lemma 6.3, daß in einem unabhängigen mehrfachen multivariaten 
RRT-Modell die Unabhängigkeit der Antwortvariablen gleichbedeu- 


tend mit der Unabhängigkeit der Untersuchungsvariablen ist > 


Aus der Definition der Design-Matrix erhalten wir die Verteilung 


der Antwortvariablen Y 


(6.16) Pys (P 1) D : 


1) Für Spezialfälle findet man recht aufwendige Nachweise bei 
DRANE (1975), DRANE (1976a, S.283 f.) bzw. DRANE (1976c, 
S.568-573) und CLICKNER/IGLEWICZ (1976, S.261), CLICKNER/ 
IGLEWICZ (1980, S.80). 


Lemma 6.3 
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Für zwei unabhängige RRT-Modelle mit den Design-Matrizen E, und 


E: 


riablen Yır E = 


Beweis: 


Verwendet 


2? 


1 


P 


IK 


2 


unabhängig <=> X, X 


gilt für die Untersuchungsvariablen ët X, und die Antwortva- 


2 


2 unabhängig 


(Voraussetzung, Lemma 6.1 und 6.2) 


[(P, e 


EN j N 
PaT Bun) © (By Sall" (uy 8 Bal 


SE 


=1 ’ = 
(nr, 8 wo)" Ch 8 u) = P 8 P 
—1 2 X, X] X, 
(P m) GH Gi by? = 
(Lemma 6.1, 6.2 und Voraussetzung) 
A 8 Po) (a, 8 T3)1' Ze ® by) = 
L(B,n,) © EELER (Hy, ® by, = 
(Lemma 6.1) 
LU nh I © KEE E I= P, 9 P A 
u: oe “ao ae Y2 


man beispielsweise als asymptotischen Test auf Unab- 


hängigkeit den bekannten x7-Test, so wendet man bei RRT-Daten 


aus einem mehrfachen unabhängigen Modell dieses x?-Verfahren 
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auf die Antwortvariablen an. Denn der Nullhypothese 'Unabhängig- 
keit der Untersuchungsvariablen' entspricht nach Lemma 6.3 die 
Nullhypothese "Unabhängigkeit der Antwortvariablen'. Das geschil- 
derte Test-Verfahren hat das gleiche Signifikanzniveau, die Test- 
funktion die gleiche Verteilung wie beim Test bei direkter Be- 


fragung - immer wahrheitsgemäße Antworten unterstellt. 


Die RRT hat lediglich Auswirkungen auf die Gütefunktion des Tests, 
die wir anhand einer bivariaten Fragestellung untersuchen werden. 
Zur Formulierung der Gegenhypothese verwenden wir einen Ansatz 
von PITMAN: 1) 


(6.17) H 


EI 
| 

E 
© 


) 


ı 72 


(6.18) H, : rein ® m5) + ô Zvn mit Ae i 


Die Gegenhypothese liegt also - mit steigendem Stichprobenumfang - 


zunehmend - nahe an einem festen Punkt der Nullhypothese. 


Bei direkter Befragung ist die Testgröße rå 
a M2 (nd - (nS @ nS), /n)? 
i=1 (n, 2 n5),/n 


unter der Nullhypothese asymptotisch SÉ - verteilt, mit 
(m, -1) (m,-1) Freiheitsgraden. 


In (6.19) ist De der Vektor der beobachteten simultanen Häufig- 


keiten und nd nd die Vektoren der beobachteten Randhäufigkeiten. 


1° =2 
Bei Gültigkeit der Gegenhypothese ist rt asymptotisch nach einer 
nichtzentralen x7-Verteilung red) mit f = (m,-1) (m,-1) 


Freiheitsgraden und dem Dezentralitätsparameter Y 


1) Vgl. COCHRAN (1952, S.323), MOTE/ANDERSON (1965, S.98), 
ASSAKUL/PROCTOR (1967, S.69). 


ei fe) 2 
de ak a ae - 
Oo Oo 
S ue a tli 
(6.20) 
87 
= d 2 
o o 
i (mn, 8 a5), 
A 1) 
verteilt. 


Die gleichen Überlegungen lassen sich auf einen x?-Test der 
RRT-Antwortvariablen übertragen. Nach dem Lemma 6.3 entspricht 
der Nullhypothese (6.17) die Nullhypothese (6.21): 


(6.21) H : A= dA, SA 


Die (6.18) entsprechende Gegenhypothese erhalten wir durch Ein- 


setzen: 


(6.22) Hy :A=Pı = 


+ 
Io 


/Yn) = 


u 

> 
oO 

CG 
|> 
+ 
IO 
Co 


S /vn mit AP = ban i=1,2 


Die Testgröße Tř, in die die Häufigkeiten der Antwortvariablen 


r © ob a 
n und nye D: eingehen, 


m.m r r r 2 
eT wë. } 2 In; (n, 8 no), /n) 
Da r r 


ist also bei Unabhängigkeit der Untersuchungsmerkmale asympto- 
tisch x?-verteilt mit (m,-1) (m,-1) Freiheitsgraden. 


Bei Gültigkeit der Gegenhypothese ist TY asymptotisch nach einer 


1) Vgl. COCHRAN (1952, 8.324). 
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nicht-zentralen x?-Verteilung x2 (£,y7) mit £ = (m,-1) (m,-1) und 


dem Dezentralitätsparameter 


(6.24) ` ae es a = 


verteilt. 


Vergleicht man ya und cf, so läßt sich mit Hilfe der Cauchy- 


Schwarzschen Ungleichung zeigen, daß yd mindestens genau so groß 


8 r., 
wie y ist: 


(6.25) yt < wf 
Beweis: 
set 2 
Ce Ce E 
(È Tr 7.7 1 E (14 ® T,) 
ro i i . 
yo = Ile = J ——] $ 
i Bon), i lPi (y en); 
D 
2 err eee! EBENE, 
am è taj > È Pij aroy 
DE 
i ) Pij ® 12); 
(Formel (6.5) 
52 
er l 
g DE Sais 
d 


WA 
< 
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Da die Verteilungsfunktion der nichtzentralen x7-Verteilung eine 
mit c.p. steigendem y abnehmende Funktion ist, 1 ist die Macht 
des x*-Unabhängigkeitstests bei Anwendung der RRT geringer als 
bei der direkten Befragung - wahrheitsgemäße Antworten unter- 
stellt. Das Verhältnis ya läßt sich interpretieren als das 
Verhältnis der Stichprobenumfänge af nd, die zur gleichen Macht 


des Tests führen: 


Denn mit 
r d,.d 
n Ciel 
D YF (nô) 
gilt nach Formel (6.24) 
r, r n? r, d d, d 
y(n) = = y(n) = y(n") e 
n 


In den Tabellen 6.1 und 6.2 sind für einen Spezialfall des sym- 
metrischen Abweichens der Gegenhypothese von der Nullhypothese 

für das WARNER- und das SIMMONS-I-Modell Werte der Gütefunktion 
3) 


im Vergleich zur direkten Befragung wiedergegeben. Man er- 
kennt deutlich den Rückgang der Macht des Tests bei einem RRT- 
Modell. Wie zu erwarten, verbessern steigende Werte der Auswahl- 
wahrscheinlichkeit der sensitiven Frage - damit ein sinkender 
Protektionsgrad - die Macht des Tests. Beim WARNER-Modell sinkt 
die Macht mit steigenden Werten LI 
Fall beim SIMMONS-I-Modell steigt. 


Um einen - unter Effizienzgesichtspunkten - sinnvollen Einsatz 


und Woe während sie in diesem 


der RRT zu gewährleisten, muß also der Machtverlust durch mis- 
classification bei der direkten Befragung größer als der Ver- 
lust durch die Anwendung des RRT-Modells sein. 


1) Vgl. JOHNSON/KOTZ (1970, S.135). 
2) Vgl. die Analogie in ASSAKUL/PROCTOR (1967, S.70). 


3) Bei den Berechnungen wurde das Tabellenwerk von 
HARTER/OWEN (1973, S.13-78) verwandt. 


Tabelle 6.1: Macht des 2x2- 2 jnabhän igkeitstests (a = 1 %) für die direkte 


Befragung, das WARNER-Modell 1) und das SIMMONS-I-Modell 2) 
1 i=j 
ve) - 
H = D Ce = ` = 0,1 
H,(n) : dÉ Ti, dÉ dÉi dÉ u i i,j 


Zweifaches WARNER-Modell Zweifaches SIMMONS-I-Modell 
= = P 


P, =P, =P p= 17 Py =P 
P = 0,7 P = 0,9 P = 0,5 P = 0,7 


Direkte 
Befragung 


ooo0oo0oo0oo0o000000000 


LD LD ës LD ds GA Lë LAM UR DW db sch 


1) In diesem Beispiel gilt für das SIMMONS-I-Modell 


E 


5 4 -1 -1 -1 
vs (2P-4) "LAG AG) FOG AG) FOG AG) AA, 


2) In diesem Beispiel gilt fiir das SIMMONS-I-Modell 


r_ 4 -1 -1 -1 
1 =g liia ) N Sa. Ne! ao ) 


Dei De 


-1 
UN 


1 1 


= COC. > 


Tabelle 6.2: Macht des 2x2-x°-Unabhängigkeitstests (a = 5 3) für die direkte 


1) 
2) 


Befragung, das WARNER-Modell und das SIMMONS-I-Modell 


O O 
= H è : 


Him = Tij 


Direkte 
Befragung 


0,1 
0,2 
0,3 
0,4 
0,5 
0,2 
0,3 
0,4 
0,5 
0,3 
0,4 
0,5 
0,4 
0,5 
0,5 


1) 


Siehe Fußnote ; 


Siehe Fußnote 2) 


1) 


2) 


+1 i=j 
i,j = 0,1 
-1 i# 


Zweifaches WARNER-Modell Zweifaches SIMMONS-I-Modell, 


P = E: = P 


S. 202. 
S. 202. 


2 


> P= P, = Po 


= £0¢ = 
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6.4 MULTIVARIATE ANALYSE QUANTITATIVER MERKMALE MIT RRT-. DATEN 


Die multivariate Analyse von quantitativen Merkmalen beruht in 
den meisten Fällen auf der Auswertung von Varianz-Kovarianz- 

bzw. Korrelationsmatrizen der untersuchten Merkmale. Aus diesem 
Grund wollen wir uns auf die Schätzung von Kovarianzen und Korre- 
lationskoeffizienten (nach Pearson-Bravais) aufgrund von RRT- 


Daten beschränken. 1) 


Es sei jedoch erwähnt, daß sich etwa auch Regressionsanalysen 
2) Ist die RRT-Va- 


riable Regressand, so besteht die Störvariable einer Gleichung 


mit Hilfe von RRT-Daten durchführen lassen: 


aus zwei additiven Bestandteilen: einem,der wie üblich im Modell 
formuliert ist und dem anderen, der auf die Randomisierung zu- 
rückzuführen ist. Da die Varianz des zweiten Bestandteils i.a. 
von einem Beobachtungspunkt zum anderen variieren kann, liegt 
hier i.a. ein lineares Modell mit heteroskedastischen Störvariab- 
len vor. Treten die RRT-Variablen als Regressoren auf, so sind 
die in der Ökonometrie gebräuchlichen Schätzverfahren bei Feh- 
lern in den Variablen anzuwenden. 


Für das Unrelated-Question-Modell (in der SIMMONS-I-Version), 
für das additive und das multiplikative Modell geben wir nun die 
Zusammenhänge zwischen der Kovarianz der (beobachtbaren) Ant- 
wortvariablen und der Kovarianz der (nicht beobachtbaren) Unter- 
suchungsvariablen an, die eine Schätzung der Kovarianz bzw. 
Korrelationskoeffizienten der Untersuchungsvariablen ermögli- 
chen. Das DALENIUS/VITALE-Modell eignet sich nicht für multi- 
variate Fragestellungen, da es lediglich auf die Schätzung von 
Mittelwerten ausgerichtet ist. 


1) SEN (1974, S.1000) gibt eine Schätzfunktion für Kendalls 1 
an, einen Korrelationskoeffizienten für mindestens ordinal 
skalierte Merkmale. Diese Schätzfunktion wird mit Hilfe 
spezieller Sätze abgeleitet, die die Theorie der U-Statistik 
auf die RRT erweitern. Vgl. auch SEN (1976). 


2) Vgl. ERIKSSON (1976b). 
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Beim Unrelated-Question-Modell gilt ftir die Antwortvariablen 


1702 


(6.26) I ZX; + (1-2,)U, i= 1,2 


wobei Z,rZoe U, und U, untereinander und von x, und X, unabhän- 


1 
gig sind. 


Für die Kovarianz der Antwortvariablen erhalten wir 1) 


(6.27) Cov (Y4 Y3) = Cov(2,X,,2,%,) + Cov(2,%,, (1-2,)U,) + 


+ Cov((1-2,)U,,2,X,) + Cov((1-2,)U,,(1-2,)U,) 


Cov(Z,X,, 2,%,) = 


`e 


= P,P. Cov (X, Xo) 


d.h., die Kovarianz der Antwortvariablen unterscheidet sich nur 


um den Faktor P,P. = EZ, EZ, von der der Untersuchungsvariablen. 


Für den Korrelationskoeffizienten p gilt damit: 


plY,,Y,) Var HG Y, 


P,P Var X, Var X3 


(6.28) p(X,X-) = 
ES E 1 


Die Faktoren auf der rechten Seite von (6.28) lassen sich aus 
der Stichprobe schätzen, wodurch man eine Schätzung von ZE 
erhält. Hierbei ist - nach Formel (5.4) 
BR: re _ _ oe ae 
(6.29) Var x, = P, [Var Yi (1 P|) Var U. P, (1 Pi) (EX, EU, ) ] 
i = 1,2 . 


Beim additiven Modell geht man entsprechend vor. Für die Ant- 


wortvariablen gilt: 


(6.30) Y, = X, + 2, i = 1,2 


1) Vgl. KRAEMER (1980, S.307). 
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Cov(¥,,/Y.) = Cov(X,,X,) + Cov (X, +2.) + 
m 


(6.31) + Cov(2,,X,) + Cov (24723) 


O O 


Cov (X, EE 


E Y, » Var Y, 
(6.32) PIX,,X,) = p(Y,,Y, ) Var x, - Var X, € 


die Kovarianz der Untersuchung - und der Antwortvariablen stim- 


men hier also überein. 


Für das multiplikative Modell erhalten wir 


(6.33) H = x,2. i = 1,2 
(6.34) Cov(Y, ,Y,) = E(2, 2,%,%,) - E(X,2 AKTE 
= Haha? COVIX,,X,) 
P(Y] +Y5) Var H - Var Y, 
(6.35) p(X,,X.) = ——— un ne ne | 
1° 2 Mo, Hoo Var X, e Var X, 
mit 2 
Var Yi - Mai Var 2. 
(6.36) Var x, =e RL nd i = 1,2 ; 
i 2 
ue. + Var 2. 
Zi 1 


Bedingung für die Ermittlung der Kovarianz bzw. des Korrelations- 
koeffizienten der Untersuchungsvariablen ist hier - wie bei der 
Schätzung des Mittelwerts - „ daß keine der Randomisierungs- 


variablen den Erwartungswert Null hat. 


Eine Betrachtung der Formeln 6.27/8, 6.31/2 und 6.34/5 für die 
Kovarianzen bzw. die Korrelationskoeffizienten zeigt eine Ana- 


logie zu den Ergebnissen des vorangegangenen Abschnitts für 


- 207 = 


qualitative Merkmale. 

Entspricht dort der Unabhängigkeit der Untersuchungsvariablen 

die Unabhängigkeit der Antwortvariablen, so gilt dies hier bei 
quantitativen Variablen für die Unkorreliertheit. Ein Test 

auf Unkorreliertheit der Untersuchungsvariablen (HJ: PIX,»%,)=0), 
kann somit als Test auf Unkorreliertheit der Antwortvariablen 

IR. : LÉI = O) durchgeführt werden. 


Die Ergebnisse des 6. Kapitels haben also gezeigt, daß die RRT 
nicht nur auf univariate Fragestellungen beschränkt ist, son- 
dern auch im Rahmen der multivariaten Analyse anwendbar ist, 
mit deren Hilfe Dependenzen und Interdependenzen von Variablen 
untersucht werden können. 
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7. ANWENDUNGEN DER RRT 


Die vorausgegangenen Kapitel dieser Arbeit beschäftigten sich - 
von Ausnahmen im Anfangskapitel abgesehen - mit Fragen des Modell- 
Designs,der Schätzung und des Effizienzvergleichs bei der RRT, 

wie dies dem statistisch-methodischen Charakter der Arbeit ent- 
spricht. Neben der Voraussetzung und Notwendigkeit solcher me- 
thodischer Überlegungen für die praktische Anwendung von RRT- 
Methoden sind jedoch gerade für die Praxis Erfahrungen, die bei 
der Anwendung verschiedenster RRT-Modelle gesammelt wurden, von 


großer Bedeutung. 


Aus methodischer Sicht interessieren hier insbesondere Studien, 
in denen einmal die Anwendbarkeit der RRT überhaupt untersucht 
wird, und andere, in denen die RRT mit konkurrierenden Befra- 


gungsverfahren verglichen wird. 


Die erste Kategorie solcher Vergleichsstudien könnte man als 
Validierungsstudien bezeichnen; in ihnen werden die Ergebnisse 
der RRT anhand verläßlicher Daten überprüft. Bei den Vergleichs- 
studien i.e.S. werden gleiche Tatbestände mit verschiedenen Me- 
thoden erhoben; für eine sinnvolle Auswertung sind plausible 
Annahmen über das Antwortverhalten zu treffen, da die 'wahren' 
Werte unbekannt sind. Bei sensitiven Merkmalen ist eine Unter- 
fassung zu erwarten, so daß die Methode am besten erscheint, die 


die höchsten Werte erzielt. 


Zu den Anwendungen i.e.S. sind solche Studien zu zählen, in de- 
nen die RRT als Erhebungsinstrument zur Informationsgewinnung 


über die Häufigkeitsverteilung gewisser Merkmale eingesetzt wird. 


Betrachtet man die Übersicht 7.1, die die wichtigsten in der Li- 
teratur dokumentierten Vergleichsstudien enthält, und die Über- 
sicht 7.2 der Anwendungsstudien i.e.S., so fällt auf, daß als 


RRT fast ausschließlich ein Unrelated-Question-Modell, allerdings 
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in den unterschiedlichsten Versionen, angewandt wurde. Dies re- 
flektiert die Flexibilität und Effizienz, die wir in den theore- 


tischen Teilen der Arbeit angeführt haben. 


Desgleichen sind gewisse Schwerpunkte bei den untersuchten Merk- 
malen auszumachen. Als Bereiche sind zu nennen: Fertilität (ein- 
schließlich Schwangerschaftsabbruch, uneheliche Geburten), Sexual- 


verhalten, Drogenkonsum und kriminelle Handlungen. 


Bei der Darstellung der - aus methodischer Sicht - interessanten 
Studien werden wir nach dem Schwerpunkt des Untersuchungszieles 
zwischen Vergleichs- und Anwendungs-Studien (i.e.S.) unterschei- 
den und - soweit möglich - einzelne Merkmalsbereiche gesondert 


behandeln. 


Übersicht 7.1: Vergleichsstudien zur RRT 


Autor (en) Merkmalsbereiche angewandtes verglichene Methoden 
(Jahr der Publikation RRT-Modell 


HORVITZ/SHAH/SIMMONS (1967) Uneheliche Geburten SIMMONS-II-Modell Vergleich mit bekannten 
(alternatives Merkmal) wahren Werten 


GERSTEL/MOORE/ Trunkenheit am Steuer Unrelated-Question- Interview 


FOLSOM/KING (1970) Modell 
(vorgegebene Antworten) 


(1972) Drogenkonsum Unrelated-Q.-M., Interview 
Contamination-Modell 


I-CHENG/CHOW/RIDER (1972) Schwangerschafts- Unrelated-Question-M. Interview, Validierung 
LIU/CHEN/CHOW (1976) abbruch Multiple-Trial-Versio- anhand von Zusatzin- 
LIU/CHOW (1976a) nen des WARNER-Modells formation 
RIDER/HARPER/CHOW/ 

I-CHENG (1976) 

CHOW/GRUHN/CHANG (1979) 


BROWN/HARDING (1973) SIMMONS-II-Modell anonymer Fragebogen 


(1974) Trunkenheit am Steuer Unrelated-Question-M. Interview, Validierung 
(vorgegebene Antworten) anhand von Zusatzinform. 


KROTKI/FOX (1974) Fertilität, Schwanger- SIMMONS-I-Modell Interview, anonymer 
schaftsabbruch Fragebogen 


Wahlverhalten, Trunken- SIMMONS-I-Modell Interview, telefonische 
heit am Steuer, Bankrott Befragung, Fragebogen 


SMITH/FEDERER/ (1974) Drogenkonsum, Einkom- Unrelated-Question- Block-Total-Response- 

RAGHAVARAO men, Sexualverhalten M.- (vorgegeb.Antw.) Procedure, Randomized- 
Block-Total-Response- 
Procedure 


- Ol? 


GOODSTADT/GRUSON . (1975) 
GOODSTADT/COOK/ 
GRUSON (1978) 


Drogenkonsum SIMMONS-II-Modell Interview 
(quantitatives 
Merkmal) 


anonymer Fragebogen, 
Interview 


WISEMAN/MORIARTY/ 
SCHAEFER (1975) 


Rassenvorurteile, 
politische und mora- (vorgegeb. Antw.) 
lische Vorstellungen 


BARTH/SANDLER (1976) Alkoholkonsum SIMMONS-I-Modell anonymer Fragebogen 
ZDEP/RHODES (1976) Kindesmißhandlung FOLSOM-Modell Interview, Fragebogen 


BERMAN/McCOMBS/ 
BORUCH 


Unrelated-Question-M. 


anonymer und identifi- 
zierter Fragebogen 


i= 


Interview, Validierung 
durch Zusatzinformationen 


——_— | 
Fragebogen 


direkte Befragung 


Contamination- 
Modell 


Sexualverhalten, Kri- 
minalität, Drogen- 
konsum 


FIEDLER/KLEINKNECHT (1977) Sexualverhalten u.a. 


gene 


ROSENBLATT/KELLY (1978) 


Unrelated-Question-M. 
(vorgegeb. Antw.) 


SIMMONS-II-Modell 


SIMMONS-I-Modell 


Unrelated-Question- 
Modell (vorgegeb.A.) 


Drogenkonsum FOLSOM-Modell 


Examensmißerfolg (qual. 
u. quantitat. Merkmal) 


Täuschungsversuche 
bei Examina 


BEGIN/BOIVIN/ (1979) Sexualverhalten etc. 


BELLEROSE 


ZDEP/RHODES/ 
SCHWARZ/KILKENNY (1979) 


Übersicht 7.2: Anwendungen (i.e.S.) der RRT 


Autor (en) 
Jahr der Publikation 


ABUL-ELA/GREENBERG/ 
HORVITZ 


Merkmalsbereich angewandte RRT 


uneheliche Geburt, Erweiterung des WARNER-Modells 
(1967) Schwangerschaftsabbruch 


GREENBERG/ABUL-ELA/SIMMONS/ Schwangerschaftsabbruch, Ver- Unrelated-Question-Modell 


HORVITZ 


(1969a) wendung von Kontrazeptiva, (Ein- und Zweistichproben- 


ABERNATHY/GREENBERG/HORVITZ (1970) psychische Probleme version) 
GREENBERG/ABERNATHY/HORVITZ (1970) 


GREENBERG/KÜBLER/ 
ABERNATHY/HORVITZ 


IIT 


(1971) Einkommen, Schwangerschafts- SIMMONS-II-Modell 
abbruch 


SMITH/SOSNOWSKI (1972) Beurteilung von Lehrkräften WARNER-Modell 


FOLSOM/GREENBERG/ 
HORVITZ/ABERNATHY 


(1973) Trunkenheit am Steuer bei FOLSOM-Modell 
Unfällen 


DAWES (1974) Sexualverhalten Unrelated-Question-Modell 
(vorgegebene Antworten) 


REINMUTH/GEURTS 
GEURTS/ANDRUS/REINMUTH 


HOCHBERG et al. 


MADIGAN/ABERNATHY/ 
HERRIN/TAN 


SHIMIZU/BONHAM 


KIM/FLUECK 


(1975) Ladendiebstahl SIMMONS-II-Modell 
(1975) 


(1976) Benutzung von Sicherheits- Unrelated-Question-Modell 
gurten (vorgegebene Antworten) 
zweistufiges Modell 


(1976) Bewußte Verheimlichung von SIMMONS-I-Modell 
Sterbefällen auf den Philippinen 


(1976 ,1978) Schwangerschaftsabbruch FOLSOM-Modell 


(1978b) Inanspruchnahme von bestimmten WARNER-Modell 
Sozialleistungen 
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7.1 VERGLEICHSSTUDIEN 


7.1.1 Vergleichsstudien mit Schwer- 
punkt im Bereich Fertilität, 
Schwangerschaftsabbruch, unehe- 
liche Geburten etc. 


Über eine sehr frühe Vergleichs-/Validierungsstudie zur RRT aus 
dem Jahre 1965 wird von HORVITZ et al. (1967) berichtet. In 
North-Carolina/USA wurden 148 Haushalte befragt ee in denen im 
August oder September 1965 ein Kind geboren worden war, darunter 
in 28 Haushalten (18,9 %) von einer unverheirateten Mutter - wie 
den Geburtenregistern zu entnehmen war. Verwendet wurde das 
SIMMONS-II-Modell, wobei zur Randomisierung ein Kartenspiel mit 
insgesamt 50 Karten verwendet wurde IP, = 0,7, P, = 0,3). Die 
sensitive Frage betraf die Geburt eines unehelichen Kindes; in 
der nicht sensitiven Zusatzfrage wurde gefragt, ob die Interview- 
te in North-Carolina geboren sei. Die Ergebnisse sind in Über- 


sicht 7.3 zusammengestellt. 


Übersicht 7.3: Ergebnisse der Validierungsstudie von 
HORVITZ et al. (1967). Anteil unehelicher 


Geburten in North-Carolina bei 148 be- 
fragten Haushalten. 


Alle Haus- Weiße Haus- Nicht weiße 


halte halte Haushalte 


RRT-Schätzwert 
Wahrer Wert 


Quelle: HORVITZ et al. (1967), S.67 


Der RRT-Schätzer für alle Haushalte lag also recht nahe am wah- 
ren Wert; für die Untergruppen der weißen bzw. nicht-weißen Haus- 
halte ergaben sich noch bessere Ergebnisse. 


1) Vgl. HORVITZ et al. (1967, S.66f.). 
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Eine zweite - recht ungünstig angelegte - Stichprobe 1) mit 


einem Two-Trial-Unrelated-Question-Modell zeigt jedoch sehr viel 
schlechtere Ergebnisse; die Anteile wurden stark überschätzt, 
wobei die wahren Werte jedoch sehr klein waren (2 o/oo - 3 o/o). 


Die Autoren vermuten die Ursache darin, daß - neben den bekann- 
ten Schwierigkeiten der Schätzung sehr kleiner Anteile - die 
realisierten Werte von P nicht mit den theoretischen überein- 
stimmten und zudem seitens der Befragten einige Mißverständnis- 
se aufgetreten sein könnten. GOULD et al. (1969) analysieren 
diese Ergebnisse ausführlich anhand eines umfangreichen Fehler- 
modells. 


Insgesamt sind die Ergebnisse von HORVITZ et al. (1967) also 


etwas kritischer zu betrachten,als dies gelegentlich geschieht St. 


In Anlehnung an die Anwendungsstudie von GREENBERG et al. 
(1970) 3) führten KROTKI/FOX 3 
University of Alberta durch. 1045 Frauen im Alter zwischen 18 


eine Vergleichsstudie an der 


und 54 Jahren wurden in Edmonton/Canada entweder in einer persön- 
lichen Interview, mit einen anonymen Fragebogen, der mit der 

Post zurückzusenden war, oder mit der RRT befragt. Die Fragen be- 
trafen Schwangerschaftsabbruch, Geburt eines unehelichen Kindes, 
vorehelichen Geschlechtsverkehr und die Verwendung von Kontra- 
zeptiva. Als RRT wurde das SIMMONS-I-Modell (P = 0,7) verwendet. 
Die Ergebnisse sind in der Übersicht 7.4 zusammengefaßt. 


Die RRT erzielte i.a. höhere Schätzwerte als die direkten Metho- 
den; die Unterschiede konnten jedoch wegen der großen Streuberei- 
che nicht statistisch gesichert werden. Ein Vergleich mit den amt- 
lichen Angaben über das Ausmaß von Schwangerschaftsabbrüchen 
zeigt, daß die Zahlen aus den direkten Befragungen erheblich 

1) Vgl. HORVITZ et al. (1967, S.67-72). 


2) Vgl. GREENBERG et al. (1969a, S.537£f.) und HORVITZ et al. 
(1976, S.191). ; 


3) Vgl. 7.2.1. 
4) KROTKI/FOX (1974). 


Übersicht 7.4: 
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Ergebnisse der Vergleichsstudie von 


KRÖTKI/FOX (1974). Vergleich der 95 $- 


Konfidenzintervalle für Anteile aus 


verschiedenen Befragungsmethoden. 


Schwangerschaftsab- 
bruch i.d. letzten 
12 Monaten 


Schwangerschaftsab- 
bruch im Laufe des 
bisherigen Lebens 


unverheiratet 


- , Geschlechtsver- 
kehr 


Schwangerschaft 


Verwendung von 
Kontrazeptica 


Geburt 


Schwangerschafts- 
abbruch 


Quelle: 


0,032 
(+0 ‚032) 


0,090 
(+0,068) 


0,623 
(20,076) 


0,190 
(+0,055) 


0,326 


| (+0,067) 


0,078 
(+0,063) 


0,021 
(20,030) 


0,008 
(+0,001) 


0,038 


(0,023) 


0,605 
(+0,059) 


0,213 
(30,049) 


0,281 


(0,054) 


0,075 
(40,032) 


0,034 
(+0,022) 


KROTKI/FOX (1974, S.370). 


Fragebogen Interview 


0,003 
(+0,003) 


0,015 
(+0,013) 
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niedriger liegen (etwa um 24 % beim Fragebogen und um 72 % beim 
Interview), während sich bei der RRT ein Schätzwert ergibt, der 
etwa doppelt so groB wie die offizielle Angabe ist.) Auf Fragen 
nach der Einstellung (ihrer Bekannten) zur RRT antworteten 68 3, 
sie würden auf eine direkte (!) Frage wahrheitsgemäß antworten, 
63 % sahen keinen Trick in der RRT und nur 58 % empfanden die 
Vertraulichkeit durch die RRT geschützt. Die Zweckmäßigkeit der 
RRT wurde darüberhinaus durch die Beobachtung infragegestellt, 
daß nur wenige Befragte die beantwortete Frage nicht (!) ankreuz- 
ten, also den Sinn der RRT entweder nicht erkannten oder nicht 


anerkennen wollten. 


In den Jahren 1970-1973 wurden in Taiwan Befragungen durchge- 
führt, ?) 


- Test der Anwendbarkeit der RRT in einem Land mit einer relativ 


die eine dreifache Zielsetzung hatten: 


hohen Analphabetenrate, 
- Vergleich der RRT mit der herkömmlichen direkten Befragung, 


- Gewinnung von Informationen über das Ausmaß des Schwanger- 
schaftsabbruchs. 


Die RRT wurde in zwei Stichproben angewandt. 


3) 


In der ersten Stichprobe wurde ein Unrelated-Question-Modell 
benutzt. 


Die sensitive und die Zusatzfrage lauteten: 


- 'Have you ever had an induced abortion in your lifetime?' 


- ‘Were you born in a year of horse?' 


Zur Randomisierung wurden 35 schwarze und 15 weiße Go-Steine ver- 
wandt (P = 0,7). y wurde durch eine entsprechende Interviewfrage 
aus der Stichprobe geschätzt. Insofern sind die angegebenen Va- 


4) 


rianzen, die nach der Formel (3.56) berechnet wurden, nicht 


1) Vgl. KROTKI/DANIEL (1975, S.69). 


2) vgl. I-CHEN et al. (1972), RIDER et al. (1976), LIU/CHOW 
(1976a) und LIU et al. (1976). 


3) Vgl. I-CHENG et al. (1972), RIDER et al. (1976). 
4) Vgl. RIDER et al. (1976, S.45). 
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korrekt. Der Anteil der Befragten, die sich weigerten, an der 
RRT-Befragung teilzunehmen, war mit 32,2 % recht groß. Dies hing 
eng mit dem Bildungsstand der Befragten zusammen; so nahm die 
Kooperationsrate von 51,3 3 (keinerlei Ausbildung) bis auf 90 % 
(high school und mehr) zu. 


1) 


In der zweiten Stichprobe wurde eine Multiple-Trial-Version 
des WARNER-Modells angewandt: die Binomialversion mit m = 3 und 
P = 0,3. Zur Randomisierung wurde die Hopkins-I-Urne (vgl. 


Abb.3.2) verwandt. 


Die Ergebnisse der beiden Stichproben sind in der Übersicht 7.5 
zusammengestellt und den Ergebnissen direkter Befragungen gegen- 


übergestellt. 2) 


Die RRT-Ergebnisse liegen deutlich über denen der direkten Befra- 


gungen. 


Bei einer zusätzlichen Validierungsstichprobe mit 48 Befragten, 
von denen man wußte, daß sie bereits einen Schwangerschaftsab- 
bruch hatten vornehmen lassen, und mit einer gleich großen Kon- 
trollgruppe, >) ergab sich für die erstere ein Schätzwert von 
93,5 %, 4) für die letztere von 19,8 %. ‘This suggests that most 
of the abortion cases were willing to give truthfull response in 
the Multiple Trial Mode1'. >? 


1) Vgl. LIU/CHOW (1976a) und LIU et al. (1976). 


2) Die Ergebnisse von LIU/CHOW (1976a) und LIU et al. (1976) 
stimmen teilweise nicht überein, obwohl sie über die 
gleiche Studie berichten. 


3) Die Interviewer wußten nicht, zu welcher Gruppe die Befrag- 
ten gehörten. 


4) Das 95 %-Konfidenzintervall des Momentenschätzers überdeckt 
100 %. Bei der Berechnung der Standardabweichung ist je- 
doch lediglich die Antwortvarianz zu berücksichtigen; vgl. 
hierzu im Gegensatz LIU/CHOW (1976a, S.615). 


5) LIU/CHOW (1976a, 8.615). 


Übersicht 7.5: 


Befragungs- 
methode 


RRT 


1. Unrelated 
Question 
Modell 


WARNER- 
Modell 


Direkte 
Befragung 


1. Island- 
wide 
KAP III? 


Island- 
wide 


KAP tv 2) 


Taoynan 
Abortion 
Study 


KAP a) 


a) 
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Ergebnisse der TAIWAN-Studien 
nach LIU/CHOW (1976a) 


Kreis der 
Befragten 


1 County 
verh. Frauen 
15 - 49 J. 


2 Townships 
verh. Frauen 
20 - 44 J. 


Taiwan 
verh. Frauen 
15 - 44 J. 


Taiwan 
verh. Frauen 
15 - 44 J. 


1 County 
verh. Frauen 
15 - 49 J. 


Jahr der 
Stichpro- 
be/Umfang 


Standard- 
fehler 


Anteil der 

Schwanger- 

schaftsab- 
briiche 


(%) (%) 


KAP : Knowledge, Attitude and Practice-Survey 
(bez. Sexualverhalten) 
Quelle: LIU/CHOW (1976a, S.615). 
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Im Anschluß an die Untersuchungen in Taiwan wurde ein ähnliches 
Experiment in einem ländlichen Gebiet Äthiopiens durchgeführt. 1) 
Verwandt wurde die hypergeometrische Version des Multiple-Trial- 
WARNER-Modells (M = 50, K = 35, m = 5) mit der Hopkins-II-Urne. 
Die Beteiligungsrate lag mit 98,8 % bedeutend höher als in Taiwan. 
Im übrigen wurden die recht positiven Erfahrungen aus der Taiwan- 


Studie auch in diesem noch weniger entwickelten Land bestätigt. 


7.1.2 Vergleichsstudien nit Schwer- 
punkt im Bereich Alkohol- und 
Drogenkonsum 


Neben einer kleinen, nicht allzu erfolgreichen Pilot-Studie 

von BORUCH (1972), 2 die mit dem Contamination-Modell arbeitete, 
verwenden alle hier behandelten Studien ein Unrelated-Question- 
Modell. Als Vergleichsmethoden werden direkte Befragungsmethoden 
herangezogen - sieht man von der Vergleichsstudie von SMITH 

et al. (1974) ab, die die RRT mit der Block-Total-Response-Tech- 
nik (BTR) und der randomisierten BTR vergleichen, jedoch wegen 
der geringen Stichprobenumfänge zu keinen allzu aussagekräftigen 
Ergebnissen gelangen. 

BROWN/HARDING Si 
das SIMMONS-II-Modell mit der Befragung durch anonyme Fragebogen. 


vergleichen bei Angehörigen der Streitkräfte 


Die Ergebnisse sind in Übersicht 7.6 dargestellt. 

Die RRT-Schätzer sind in fast allen Fällen größer als die direk- 
ten. Aufgrund der großen Streuung lassen sich jedoch die Unter- 
schiede nur bei den Halluzinogenen (Offiziere) und den Babitura- 
ten (Unteroffiziere und Mannschaften) statistisch sichern 

(a = 5%). Da Offiziere die Konsequenzen bekanntgewordenen Drogen- 


konsums stärker befürchten als die Mannschaften, sind bei ihnen - 


1) Vgl. CHOW et al. (1979). 
2) Vgl. BORUCH (1972, S.411). 


3) Vgl. BROWN/HARDING (1973) zitiert nach HORVITZ et al. 
(1976, S.192). 
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so BROWN/HARDING - die Differenzen zwischen RRT und direkter 
Befragung besonders groß. 


Übersicht 7.6: Ergebnisse der Vergleichsstudie von 
BROWN/HARDING (1973): 


Drogenkonsum von Soldaten im letzten Monat 


Anonymer Fragebogen RRT 


Prozent Standardfehler | Prozent Standardf. 


Offiziere (n=320) 


Marihuana 
Halluzinogene 
Amphetamine 
Barbiturate 
Narkotika 


Unteroffiziere 
und Mannschaf- 
ten (n=663) 


Marihuana 
Halluzinogene 
Amphetamine 
Barbiturate 
Narkotika 


Quelle: HORVITZ et al. (1976, 5.192). 


Eine Studie von GOODSTADT et al. D vergleicht die RRT mit der 
direkten Befragung bei der Ermittlung des Ausmaßes des Drogen- 
konsums amerikanischer High-School-Studenten; insgesamt wurden 
über 800 Studenten in Ontario befragt. Angewandt wurde das 
(nicht optimierte) SIMMONS-II-Modell für quantitative Merkmale. 
Endziffern von Telefonnummern dienten zur Randomisierung 

(P, = 0,7, Po = 0,3). Der Fragebogen enthielt folgende Fragen- 
konstellationen 


1) Vgl. GOODSTADT/GRUSON (1975) und GOODSTADT et al. (1978) 
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Sensitive Frage Zusatzfrage Number of times 
7 during the last 
I have used I have 3 months 

1) Alcohol Watched T.V. 

2) Cannabis Been to a library 

3) Hallucinogens Attended a rock concert 

4) Amphetamines Attended a classical 
(speed) concert 

5) Tranquilizers Visited a museum 

6) Heroin Attended a play 


Die Ergebnisse der Studie lassen sich folgendermaBen zusammen- 


fassen: 


- Die Antwortbereitschaft war bei der RRT (5,5 % Weigerungen) 


größer als bei der direkten Befragung (13,3 % Weigerungen). 


- Bei Alkohol, Cannabis, Amphetaminen, Tranquilizern und Heroin 
lagen die Durchschnittswerte aufgrund der RRT-Befragung signi- 
fikant (a = 5 %) höher als bei der direkten Befragung. 


- Bei den Halluzinogenen konnten keine Unterschiede festge- 
stellt werden. 


- 'The present study has demonstrated the viability and utility 
of employing the randomized response technique to obtain 


1) 


estimates of drug use'. 


Einzig auf die Erfassung des Alkoholkonsums - als alternative Frage 
gestellt - ist die Vergleichsstudie von BARTH/SANDLER (1976) ausge- 
richtet. Der Befragung mittels eines anonymen Fragebogens wird 

das SIMMONS-I-Modell gegenübergestellt; zweifacher Münzwurf zur 
Randomisierung (P = 0,75) - gerade/ungerade Telefonnummer als 
Zusatzmerkmal (bh = 0,5). Die sensitive Frage, die High-School- 
Studenten in Nashville/TN zu beantworten hatten, lautete: 


1) GOODSTADT et al. (1978, S.366). 
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'Over the past year have you consumed 50 or more glasses (drinks) 


of any alcoholic beverages?' 


Die Ergebnisse der direkten Befragung (nA = 63, De = 0,635) sind 


signifikant (a = 5 %) niedriger als die der RRT-Befragung 
(nf = 59, 1” = 0,850). 


Diese positiven Ergebnisse werden auch von ZDEP et al. 

(1979) bestätigt, die 2084 Erwachsene mit Hilfe des FOLSOM-Modells 
über Marihuana-Konsum befragten. Es zeigte sich, daß die RRT- 
Schätzer gerade in den Bevölkerungsgruppen gegenüber Werten aus 
direkten Befragungen besonders stark nach oben abweichten, bei 
denen die Antwortbereitschaft a-priori als schlecht eingeschätzt 


wurde. 


Zusammenfassend läßt sich sagen, daß die RRT bei Fragen nach 
Drogenkonsum i.a. eine höhere Antwortbereitschaft als die direk- 


te Befragung erreicht. 
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7.1.3 Vergleichsstudien in anderen 


Merkmalsbereichen 


Die verbleibenden Vergleichsstudien beziehen sich auf die unter- 
schiedlichsten sensitiven Merkmale. Die beiden Studien von 
GERSTEL et al. (1970) und FOLSOM (1974) untersuchen den Bereich 
'Trunkenheit am Steuer’ in Mecklenburg County/North Carolina. 
GERSTEL et al. (1970) 1} 
dem Unrelated-Question-Modell mit vorgegebenen Antworten 

(P = 0,7, v = 1/3). Der Anteil der Befragten, der kurze Zeit 


nach dem Genuß von vier alkoholischen Drinks noch Auto gefahren 


vergleichen die direkte Befragung mit 


war, wurde mit der direkten Befragung auf 12,2 % gegenüber 

20,1 % mit der RRT geschätzt. Eine vergleichbare Stichprobe, die 
ein Jahr später mit der RRT befragt wurde, ergab den Schätzwert 
von 22 % und bestätigte somit den höheren RRT-Wert aus der er- 
sten Vergleichsstudie. 2) FOLSOM (1974) 3) benutzte in seiner 
Validierungsstudie neben der direkten Befragung ebenfalls das 
Unrelated-Question-Modell mit vorgegebenen Antworten. Befragt 
wurden 283 Personen, die in den letzten 8 Monaten wegen Trunken- 
heit am Steuer festgenommen worden waren, daneben auch eine Kon- 
trollgruppe. Das Ergebnis war für die RRT ungünstig: 84 % der 
direkt Befragten bekannten sich zu ihrer Festnahme wegen Alko- 
hol am Steuer, bei der Anwendung der RRT jedoch nur 71,6 % (so 


der Schätzwert). 


Eine andere Gruppe von Vergleichsstudien befaßt sich mit Ant- 

worten von Studenten auf sensitive Fragen. ROSENBLATT/KELLY 

(1978) untersuchen Täuschungsversuche bei Examensarbeiten mit- 

tels des SIMMONS-I-Modells. 

1) Vgl. GERSTEL et al. (1970), zitiert nach HOCHBERG et al. 
(1976, S,36£.). 


2) Vgl. GERSTEL et al. (1970), zitiert nach HORVITZ et al. 
(1976, 8:193). 


3) Vgl. FOLSOM (1974), zitiert nach HOCHBERG et al. (1976, 
S.38ff.). 
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LAMB/STEM (1978) führten für die direkte Befragung und das 
SIMMONS-II-Modell, das jedoch nicht in der optimierten Form an- 
gewandt wurde, 1) eine Validierungsstudie durch. Sie befragten 
312 amerikanische College-Studenten nach ihrem/n Examensmißer- 
folg/en - sowohl in einer qualitativen wie auch in einer quanti- 
tativen Fragestellung. Außerdem wurden nach REINMUTH/GEURTS 
(1975) Schätzwerte für eine Untergruppe angegeben. 

Aufgrund der Identifikation der Befragten konnten die wahren 
Parameter aus Verwaltungsunterlagen bestimmt werden. Neben der 
RRT-Gruppe (n = 249) wurde eine Kontrollgruppe (n = 63) direkt 
befragt. Der Anteil der Studenten, die einen Examensmißerfolg 
angaben, war um (relativ) 4,6 % (entspricht 1,4 %-Punkten) gerin- 
ger als der tatsächliche; die angegebene Durchschnittszahl der 
nicht bestandenen Kurse um 36 % (0,254). 2) Der RRT-Schätzer 
überschätzte - bei großer Streuung - den Anteil um 4,6 % (1,6 %- 
Punkte) ; der Durchschnittswert wurde um nur 14 % (0,078) unter- 
schätzt. = Die RRT scheint hier also recht passabel abzuschnei- 
den. Exakte Wertungen der Studie sind wegen ihrer methodischen 
Unzulänglichkeiten nicht möglich; mit den angegebenen Daten ist 


eine methodisch adäquate Bearbeitung auch leider nicht möglich. 


In Studien von BERMAN et al. (1977), FIDLER/KLEINKNECHT (1977) 
und BEGIN et al. (1979) wurden Studenten nach einer Vielzahl 


sensitiver Merkmale befragt. 


1) LAMB/STEM (1978) verwenden die nicht optimierte Version mit 
E, = 0,75 und P. = 0,25, obwohl sie die Arbeit von MOORS 
( 1971) - wenn äuch falsch - als Referenz angeben. 


2) LAMB/STEM (1978, S.620) führten bei diesen Vergleichen 
t-Tests (n = n_, u = Hl durch, die schon deshalb nicht 
anwendbar sind, weil für 7 und u_ die tatsächlichen 
Werte aus der Stichprobe (!) verwafdt werden. 


3) Die von LAMB/STEM (1978, S.620) durchgeführten t-Tests 
werden,der Probenstellung nicht gerecht, vgl. Fuß- 
note . 
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BERMAN et al. (1977) - die einzige ausführliche Studie zum 
Contamination-Modell - vergleichen dieses mit zwei Methoden der 
direkten Befragung, dem anonymen und dem identifizierten Frage- 


bogen. 


Befragt wurden insgesamt 216 amerikanische College-Studenten, 
die auf zwei Stichproben aufgeteilt wurden. Für das Contaminat- 
ion-Modell wurde ein Würfel zur Randomisierung verwandt, die 
Wahrscheinlichkeiten für falsche positive und negative Antwor- 
ten waren identisch: > = d_ = 1/12. Gefragt wurde nach einer 
Vielzahl illegaler, als unmoralisch oder heikel geltender Ver- 
haltensweisen (z.B. Eigentumsdelikte, Sexualverhalten, Drogen- 
konsum etc.). Überraschenderweise zeigte die identifizierte di- 
rekte Befragung in fast allen Fällen die höchsten positiven Ant- 
wortanteile, die anonyme direkte Befragung dagegen die gering- 
sten;das Contamination-Modell erzielte keinerlei erhöhte Werte, 
konnte also die Erwartung nicht erfüllen, durch erhöhte Ver- 
traulichkeit eine erhöhte Antwortbereitschaft zu erzielen. Die 


1) 


Autoren fassen die Ergebnisse folgendermaBen zusammen: 


- Das gute Abschneiden der identifizierten Befragung könne auf 
die empfundene Verantwortlichkeit zur richtigen Beantwortung 


durch das Nennen des Namens zu erklären sein. 


- Das unerwartet schlechteAbsch:eiden des Contamination-Modells 
wird einmal dadurch erklärt, daß dieses Modell durch die Auf- 
forderungen zu lügen recht verwirrend ist und außerdem die 
Notwendigkeit einer wahrheitsgemäßen Antwort infragestellen 


könnte. 


FIDLER/KLEINKNECHT (1977) stellen in ihrer Vergleichsstudie eben- 
falls die direkte Befragung der RRT gegenüber. Sie arbeiten mit 
dem Unrelated-Question-Modell mit vorgegebenen Antworten (y= 0,5). 
Befragt wurden in der direkten Befragung 68, mit der RRT 132 


Undergraduate-Studentinnen der University of South Carolina. In 


1) Vgl. BERMAN et al. (1977, S.60f.). 
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der Übersicht 7.7 sind die Fragen, die Ergebnisse und die Signi- 
fikanz der Unterschiede dargestellt. 

Bei der Anwendung der RRT verweigerten weniger Befragte eine Ant- 
wort als bei der direkten Befragung. Von Ausnahmen abgesehen, 

die in der Originalarbeit erläutert werden, kann als Ergebnis 
festgehalten werden, daß die RRT bei wenig sensitiven Fragen in 
etwa die gleichen Werte wie die direkte Befragung erzielt, bei 


sehr sensitiven - Frage 5 und 8 - jedoch deutlich höhere. 


Diese Studie wurde von BEGIN et al. (1979) aufgenommen. Sie er- 
weitern den Fragenkatalog um die Themenbereiche Euthanasie und 
Kernkraft u.a. Sie erhielten z.T. Ergebnisse, die denen von 
KLEINKNECHT/FIEDLER widersprechen: '... Our data suggest as an 
alternative hypothesis to that of Fidler and Kleinknecht the 
notion that the comparison between the two data collection 
methods (...) could be a good index of social desirability of a 
particular trait, behavior or attitude'. So besteht die Vermu- 
tung, daß soziale Wünschbarkeit/Nichtwünschbarkeit bei der di- 


rekten Befragung zu over-/underreporting führt. 


Fragen über Einstellungen zu Rassenvorurteilen, politischen und 
moralischen Positionen stellten WISEMAN et al. (1975) in einer 
Vergleichsstudie zwischen RRT, persönlichem Interview und Befra- 
gung mit selbst ausgefüllten Fragebögen. Als RRT verwendeten sie 
das Unrelated-Question-Modell mit vorgegebenen Antworten. - 

P = 0,5, y = 0,5. Die Ergebnisse zeigten keine (Il höheren ge- 
schätzten Anteile bei der RRT als bei den direkten Verfahren; 
sie lagen dagegen nahe bei den Werten, die man aufgrund der per- 
sönlichen Befragung erhalten hatte. 'Thus it appears that the 
randomization procedure was not successful in reducing the total 


amount of response bias in this survey'. 1) 


Als Hauptursache 
hierfür sehen die Autoren fehlendes Vertrauen der Befragten in 
die RRT; so gab ein Fünftel der Befragten an, sie glaubten, der 


Interviewer würde die beantwortete Frage/Aufforderung kennen. 


1) WISEMAN et al. (1975, S.511). 


Übersicht 7.7: Ergebnisse der Vergleichsstudie von FIEDLER/KLEINKNECHT (1977) 


Stichprobe 1 (n, =68) Stichprobe 2 (n„=132) Signifikanz 
des Unter- 


direkte Befragung RRT schieds 


a 


Antwortverw. De Antwortverw. m 
(abs.) (abs.) 


Are you a Protestant? 


Do you approve of premarital sex 
for engaged couples? 


Have you ever been raped? 


Do you approve kissing on the l 
first date? 


Have you ever masturbated? 


. Have you ever had 
homosexual experience? 


Are you a virgin? 


. Have you ever touched a male's 
genitals with your mouth (fellatio); 
or have you ever had a male touch 
your genitals with his mouth 
(cunnilingus) ? 


Do you think junior high school 
students should have a course 
in sex education? 


Erläuterung: ns = nicht signifikant x signifikanter Unterschied, a = 0,05 
xx signifikanter Unterschied, a = 0,01 
Quelle: FIEDLER/KLEINKNECHT (1977, xxx signifikanter Unterschied, a = 0,001 


5.1047 £.). 
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Für die Befragten glich die RRT damit weitgehend einem persönli- 
chem Interview, was auch mit den Ergebnissen kompatibel ist. Da- 
rüber hinaus konnte ein Teil der Befragten die Aufforderung in 
einigen Fällen, 'Ja' bzw. 'Nein' zu antworten, einfach nicht ver- 
stehen. Eine Schwierigkeit, die beim Modell mit vorgegebenen 
Antworten auftritt. 


Extensive Pretests gingen der Studie von ZDEP/RHODES (1976) 
voraus. Des weiteren wurde - aufgrund von Erfahrungen wie denen 
von WISEMAN et al. (1975) - innerhalb des Interviews die RRT aus- 
führlich erläutert. Die Autoren verwendeten in ihrer Studie ein 
‘national probability sample' der Opinion Research Company, 
Princeton, um die RRT mit zwei direkten Befragungsverfahren zu 
vergleichen. Die sensitive Frage bezog sich auf Kindesmißhand- 
lung: 

‘Have you or your spouse ever intentionally used physical force 
on any of your children in an effort specifically meant to hurt 
or cause injury to that child?' 


Als RRT wurde das FOLSOM-Modell angewandt, eine Miinze diente zur 
Randomisierung (P = 0,5), die beiden nicht sensitiven Fragen 


lauteten: 
"Have you attended church or synagogue within the past week?' 


‘Have you attended a PTA meeting at school within the past 
12 months?' 


Bei der RRT lagen die Antwortraten bei 98 % bzw. 99 % in den bei- 


den Unterstichproben. 


Bei jedem der beiden direkten Verfahren fiillten die Befragten 
die Fragebögen selbst aus. Im ersten wurden sie sofort dem In- 
terviewer in einem verschlossenen Umschlag zurückgegeben (Ant- 
wortrate 88 %); im zweiten sollten die Fragebögen mit der Post 
zurückgesendet werden (Antwortrate 75 %). Die Ergebnisse sind 


der Übersicht 7.8 zu entnehmen. 
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Übersicht 7.8: Ergebnisse der Vergleichsstudie von 
ZDEP/RHODES (1976) 


Anteil der Haushalte, in denen 


Kinder mißhandelt wurden. 


Schätzwerte (Standardabweichungen) a) 


n, = 506 n, = 476 


Befragungs- 
methode 


0,15 


ER 
H 


n(2) = 0,16 


(0,047) 


Fragebogen, 
Rückgabe an 
Interviewer 


Fragebogen, 
Rücksendung 
mit Post 


Quelle: ZDEP/RHODES (1976), S.536, eigene Berechnungen 
aufgrund der angegebenen Daten 


a) Die Standardabweichungen wurden nach den Formeln 
für die einfache Stichprobe mit Zurücklegen berech- 
net. 


Die RRT erweist sich in dieser sorgfältig geplanten Studie ge- 
genüber den direkten Befragungsverfahren sowohl hinsichtlich 
der non-response als auch der Schätzergebnisse als eine brauch- 


bare Alternative bei der Frage nach sensitiven Merkmalen. 


Abschließend gehen wir noch auf die methodisch gut fundierte 
Validierungsstudie von LOCANDER et al. (1974,1976) ein, in der 
sie vier Befragungsmethoden bei der Frage nach fünf unterschied- 


lichen sensitiven Merkmalen vergleichen. 
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Die Befragungsmethoden waren: 


a) persönliches Interview 

b) RRT (SIMMONS-I-Modell) innerhalb eines Interviews 
c) telephonische Befragung 

d) selbständig ausgefüllter Fragebogen, der vom Inter- 


viewer gebracht und später wieder abgeholt wurde. 
Die Merkmale waren: 


(a) Registratur in Wahllisten 

(b) Besitz einer Chicago Library Card 

(c) Teilnahme an den Primaries zur Präsidentenwahl (1972) 
(da) Bankrott-Erklärung 

(e) Bestrafung wegen Alkohol am Steuer in den letzten 


12 Monaten. 


Die Befragten zu den Merkmalen (a)-(c) wurden, aus einem 'Chigaco 
houshold probability sample' gezogen. Ihr wahrer Status wurde an- 
hand der Karteien der Chicago Library und von Wahllisten festge- 

stellt. 


Die Befragten zu den Merkmalen d) und e) hatten alle die gefrag- 


ten Eigenschaften. 


Die Beteiligung lag insgesamt im Rahmen des Üblichen: 


72,2 % der 941 Befragungen wurden zu Ende geführt. 


Die Einzelheiten sind der Übersicht 7.9. zu entnehmen. 


Die höchsten Antworten waren bei der Telefonbefragung zu verzeich- 
nen, die RRT lag etwa gleich mit der persönlichen Befragung, und 
am schlechtesten schnitt die Befragung mit selbstausgefüllten Fra- 
gebögen ab. 


Da die Befragten in den beiden speziellen Stichproben schwerer 

zu erreichen waren als die in der - als Flächenstichprobe angeleg- 
ten - allgemeinen Stichprobe, lagen die Raten hier entsprechend 
höher. 


Übersicht 7.9: 


Befra- 
gungsme- 
thode 


Persönli- 
che Befra- 
gung 


Telephon. 


Befragung 


Selbstausg. 
Fragebogen 


insgesamt: 


Quelle: 


LOCANDER et al. 
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Ergebnisse von LOCANDER et al. (1974,1976) 
Anteile in % der durchgeführten Befragungen 
mit (geschätzten) Standardfehlern. 


Stichprobe 


Trunken- 
heit am 
Steuer 


Allg. 
Stichprobe 
zu Merkmal 


(b), 


Bankrott Insgesamt 


(c) 


(a), 


(1976, 5.271), 


Zur Validierung und zum Vergleich der Methoden ermitteln die 


Autoren die 'proportion of distorted responses', welche dem 


(geschätzten) 


Bias b=a7-7 entspricht, wobei T der Anteil 


der positiven Antworten in der Stichprobe und 7 der wahre 
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Anteil der Stichprobe sind. Die Ergebnisse stehen in der 


Übersicht 7.10. 


Übersicht 7.10: 


Ergebnisse von LOCANDER et al. (1974,1976) 


Geschätzter Bias mit (geschätzten) 


Standardfehlern 


Befragungs- 


methode 


Persönliche 
Befragung 


Telefon. 
Befragung 


Selbstausgef. 
Fragebögen 


1) 


RRT 


Registrie- 


rung 


(a) 


0,15 
(0,037) 


0,17 
(0,039) 


0,12 
(0,036) 


0,11 
(0,058) 


Library 


Card 
(b) 


0,19 
(0,04) 


0,21 
(0,044) 


0,18 
(0,042) 


0,26 
(0,08) 


Wahl- Bank- Alko- 
teiligung rott hol 


(c) (d) (e) 


-0,47 
(0,09) 


0,39 
(0,055) 


-0,32 
(0,075) 


0,31 
(0,052) 


-0,29 -0,46 
(0,075 (0,073) 


0,36 
(0,056) 


-0,32 
(0,083) 


0,48 
(0,101) 


0,00 
(0,00) 


SUDMAN (1980, S.265), bzw. LOCANDER et al. 
5.271). 


Quelle: (1976, 


1) Zur Berechnung der Standardfehler bei der RRT bemerken 
LOCANDER et al. (1976, S.271): ‘Std. errors of Random 
Response computed using Greenberg et al. (1969) formulation’. 
Der Verfasser kann die Berechnung dennoch nicht nachvollzie- 
hen, insbesondere erscheint unerklärlich, wie der Wert 0,00 
in der vierten Spalte auftreten kann. 
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Eine Betrachtung der Übersicht 7.10 zeigt, daß die RRT nicht in 
der Lage ist, overreporting merklich zu reduzieren (Merkmale a)- 
c)); in diesen Fällen ist der Bias bei der RRT oft noch größer als 
bei den direkten Verfahren. Dagegen reduzierte die RRT underre- 
porting bei den sensitiven Merkmalen erheblich, wenn auch bei 

der Frage nach Trunkenheit trotz RRT noch 35 % falsche Antworten 


1),2) 


geschätzt werden: 'It is clear from this experiment that 


no data collection method is superior to all other methods for all 
types of threatening questions. (...) The randomized response 
procedure gives the lowest distortion on threatening questions 


asking about the performance of socially undesirable acts'. 2) 


1) Wegen der geringen Stichprobenumfänge lassen sich die 
Differenzen jedoch nicht statistisch sichern. 


2) Aus den bei den Merkmalen (d) und (e) angegebenen Bias- 
Werten lassen sich die Größen TAD und TAR, die wir in 
3.1.5 bei Effizienzvergleichen verwandt haben, durch Addi- 
tion von 100 % ermitteln. 


3) LOCANDER et al. (1976, S.273). 
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7.2 ANWENDUNGEN (i.e.S.) DER RRT 


7.2.1 Anwendungen der RRT mit Schwer- 
punkt im Bereich Fertilität, 
Schwangerschaftsabbruch etc. 


Ähnlich wie bei den Vergleichsstudien liegt auch der Schwerpunkt 
der Anwendungen bei den Merkmalen Schwangerschaftsabbruch, unehe- 
liche Geburten etc. 


ABUL-ELA et al. (1967) 1) berichten recht knapp über eine erste 
Anwendung der RRT; hierbei handelt es sich um eine Erweiterung 

des WARNER-Modells auf Merkmale mit drei Ausprägungen, wobei je- 
doch zwei Stichproben notwendig sind, da die Antwortvariable le- 
diglich alternativ ist. 2) 
geringere Effizienz als das BOURKE-DALENIUS-Modell. Ziel der 


Studie war die Schätzung des Anteils der unverheirateten Mütter 


Das angewandte Modell hat deshalb eine 


in North Carolina, die zwischen Oktober 1964 und Oktober 1965 eine 
Lebendgeburt hatten. 


Die drei Merkmalsausprägungen waren 
- verheiratet bei Beginn der Schwangerschaft 
- Heirat während der Schwangerschaft 


- unverheiratet bei der Niederkunft. 


Die Schätzungen wurden mit Informationen aus der Geburtensta- 

tistik verglichen ; die Autoren geben jedoch keine konkreten Zah- 

lenwerte an. Die Studie erscheint jedoch nicht allzu erfolgreich 

gewesen zu sein - mehrere Anteilsschätzungen lagen nicht in 

[0,1] - , denn sie benennt als Ergebnis vier wichtige Punkte, die 

bei zukünftigen Anwendungen der RRT zu beachten seien: ei 

- Kartenspiele sind zur Randomisierung unzureichend, es sei denn 
bei gut ausgebildeten Interviewern und intelligenten Befragten. 

- Nicht randomisierte Antworten erzeugen einen großen Bias, 

- ebenfalls falsche Antworten; 

- desgleichen fehlendes Verständnis für den Sinn und das Funktio- 
nieren der RRT. 

1) Vgl. ABUL-ELA et al. (1967, S.1004£.). 

2) Vgl. 4.1: 

3) Vgl. ABUL-ELA et al. (1967, S.1005). 
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Die Erfahrungen dieser Studie gingen ein in eine großangelegte 
Studie, dem North-Carolina-Abortion-Survey 1968, die vom National 
Institute of Child Health and Human Development (USA) gefördert 
wurde. In ihr untersuchten ABERNATHY, ABUL-ELA, GREENBERG, HOVITZ 
und KUEBLER 1) in mehreren unabhängigen (geschichteten Klumpen-) 
Stichproben die Häufigkeit von Schwangerschaftsabbrüchen, der An- 
wendung oraler Kontrazeptiva und des Auftretens psychischer Schwie- 
rigkeiten bei Frauen; außerdem wurden auch die quantitativen Merk- 
male, Anzahl der Schwangerschaftsabbrüche und Einkommen des Haus- 
haltsvorstands, erhoben. Die Untersuchungen beziehen sich auf die 


städtischen Gebiete in North-Carolina. 


Als RRT wurde das Unrelated-Question-Modell - in unterschiedli- 
chen Versionen - verwandt. Hierbei wurde folgende Randomisierungs- 
vorrichtung benutzt: Ein verschlossener Kasten, der 35 rote und 

15 blaue Kugeln enthält; nach dem Schütteln des Kastens ist in 
einem Fensterchen eine Kugel zu beobachten. Die Bedeutung der 
Kugelfarbe ist durch entsprechende Aufschriften auf dem Kasten 


erläutert. 


Bei der Erhebung der qualitativen Merkmale wurde die folgende 
nicht sensitive Zusatzfrage gestellt: 
'I was born in the month of April'. 

In einigen Stichproben wurde y als bekannt angenommen (ermittelt 
aus der Geburtenstatistik), in anderen mußte es geschätzt werden. 
Hierzu waren dann zwei Unterstichproben notwendig, in denen - sub- 
optimal - P3 = 1-P, gewählt wurde. 
In der Studie von ABERNATHY et al. (1970) wurde die Häufigkeit 
des Schwangerschaftsabbruchs untersucht. Es wurden zwei sensitive 
Fragen in unterschiedlichen Stichproben gestellt: 
- ‘I was pregnant at some time during the past 12 months and 

had an abortion which ended the pregnancy'. 


1) Vgl. GREENBERG et al. (1969b) ,AABERNATHY et al. (1970), 
GREENBERG et al. (1970) und GREENBERG et al. (1971). 
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T = 0,0342(0(1) = 0,00996) fiir Frauen zwischen 18 und 44 Jahren. 


- ‘At some time during my life I had an abortion which ended the 


pregnancy.' 
nm = 0,0412 (c(t) = 0,010) fiir Frauen über 18 Jahren. 


Die Schätzungen für die Häufigkeiten wurden für die Totalgesamt- 
heit als auch für Subpopulationen - aufgeteilt nach Rasse, Alter, 
Bildungsstand, Familienstand - angegeben. Obgleich keine direkten 
Vergleichsdaten vorliegen, sind die Ergebnisse im Einklang mit 


anderen vergleichbaren Untersuchungen. 


Die Befragten wurden vor der Anwendung des Unrelated-Question- 
Modells über dessen Sinn und Funktionsweise ausführlich aufge- 
klärt. Außerdem wurden Fragen zur Akzeptanz der RRT gestellt. Auf 
die Frage, ob eine Freundin auf die direkte Frage nach Schwanger- 
schaftsabbruch wahrheitsgemäß antworten würde, gaben 67 % 'Nein', 
17 % 'Ja' und 16 % 'Unentschieden' an. Auf eine Abschlußfrage hin 
glaubten 60 %, daß die RRT ihre persönliche Situation nicht preis- 
geben würde, 20 % glaubten es jedoch und 20 % waren unentschieden. 


Die Antwortrate betrug insgesamt 92,2 %. 


Bei der Frage nach oralen Kontrazeptiva ergab sich 25,1 % als 
Schätzwert für die Häufigkeit der positiven Beantwortung der 
Frage 

‘I am now taking the ‘pill’ to prevent pregnancy'. 


22,8 % der Frauen über 31 Jahren - so die Schätzung - hatten schon 
einmal in ihrem Leben professionelle Hilfe wegen psychischer 
Schwierigkeiten in Anspruch genommen. Zusammenfassend kommen die 
Autoren zu dem Ergebnis: ".. we were generally satisfied with 

the findings, and are confident that, when properly used, the 
randomized response technique can provide answers to a number of 


sensitive questions in the field of public health". D 


Bei der Auswertung der quantitativen Merkmale wurde die folgende 


Fragenkombination gewählt: 


1) GREENBERG et al. (1970, S.55). 
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- 'How many abortions have you had during your lifetime?' 
- 'If a woman has to work full time to make a living, how many 


children do you think she should have?' 


Da die Verteilung des Zusatzmerkmals nicht bekannt ist, mußte ein 
Zwei-Stichproben-Modell angewandt werden, das jedoch nicht opti- 


miert war. 


Das gleiche gilt für die Einkommensfrage: 

- ‘About how much money in dollars did the head of this house 
earn last year?' 

- ‘About how much money in dollars do you think the average head 


of a household of your size earns in a year?' 


GREENBERG et al. (1969b) geben fiir die Anzahl der Schwangerschafts- 
abbrüche sowohl die (geschätzte) Häufigkeitsverteilung als auch 
den Mittelwert, für das Einkommen nur das Durchschnittseinkommen 
an. Alle Angaben sind auch für die weiße und die nicht-weiße Be- 


völkerung gesondert aufgeführt. 


Bei der Frage nach Schwangerschaftsabbruch verweigerten nur 1 % 


die Mitarbeit, bei der nach dem Einkommen 3 $. 


Die wohl umfangreichste Stichprobe, in der die RRT angewandt wur- 
H in den USA. 


Mit einem FOLSOM-Modell in dem ein Münzwurf zur Randomisierung 


de, war der 1973er National Survey of Family Growth 


verwandt wurde (P = 1/2), wurde das Ausmaß von Schwangerschafts- 
abbrüchen im vorausgegangenen Jahr ermittelt. Befragt wurden 9757 
Frauen im Alter von 15 bis 44 Jahren, 98,5 % beteiligten sich an 


der Befragung. 


Es wurden folgende Fragen gestellt: 


A : - 'In the past 12 months, I had an abortion done to 
end pregnancy'. 
U1 : - 'Was your mother born in April?' 
U2 : - 'This time last year, I lived in a different county or 


1) Vgl. SHIMIZU/BONHAM (1976), SHIMIZU/BONHAM (1978)- 
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state than this one’ 


Die Ergebnisse sind in Übersicht 7.11 zusammengefaßt. 


Übersicht 7.11: Ergebnisse des NSFG 1973/USA 


Anteil nr (in %) der Frauen im Alter von 15 bis 44 Jahren, 
die in den 12 Monaten vor der Befragung einen Schwanger- 
schaftsabbruch vornehmen ließen - nach Familienstand. 
(Standardfehler). 


Insge- | Allein- nicht verhei- verwitwet 
Schätzwert stehend , geschieden 


samt mit Kind iedig raker getrennt le- 
bend 


10,0 2,8 2,6 
(3,7) (0,8) (0,8) 


9,0 5,3 5,1 


(4,8) (1,1) (1,1) 


11,4 0,3 -0,2 
(5,6) (1,1) (1,1) 


6,3 8,7 8,6 
(1,4) (0,5) (0,5) 


5,4 12,2 12,7 
(1,8) (0,6) (0,7) 


Quelle: SHIMIZU/BONHAM (1978, S.37). 


Problematisch erscheint die große Differenz der Ergebnisse in 
den beiden Unterstichproben. So ergab die 1.Stichprobe insgesamt 
einen Schätzwert von 5,3 %, die 2. jedoch nur von 0,6 %. Trotz 
der recht hohen Streuung überschneiden sich die 95 %-Konfidenz- 
intervalle nicht, so daß hier bedeutsame Meßfehler zu vermuten 
sind. 


Als mögliche Fehlerquellen nennen die Autoren: Wi 


- Mißverständnisse bei der zweiten direkten Frage ('Country' 
statt ‘county') und 
1) Vgl. SHIMIZU/BONHAM (1978, S.39). 
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- Raten bei der ersten direkten Frage nach dem Geburtstag 


der Mutter. 1) 


Ein Vergleich der Ergebnisse mit denen aus früheren Erhebungen 
(z.B. National Fertility Study 1970, Zahlen über legale Abtrei- 
bungen, Daten aus Krankenhausunterlagen), die bei verheirateten 
Frauen im Bereich 0,6-0,8 % liegen, zeigt deutlich höhere Werte 
bei der Anwendung der RRT: 'It is not likely that all of these 
differences are due to measurement error and they suggest that 
a large number of woman had an unreported and/or illegal abort- 


ion in 1973: ,2) 


7.2.2 Anwendungen der RRT in anderen 


Merkmalsbereichen 


Die RRT wurde auch auf eine Vielzahl anderer als in 7.2.1 behan- 
delten - Merkmale angewandt. SMITH/SONSNOWSKI (1972) führten Be- 
fragungen von Studenten über ihre Einschätzungen der Lehrkräfte 
durch. Diese Studie ist einer der wenigen Anwendungsbeispiele 

des ursprünglichen WARNER-Modells. DAWES (1974) überprüfte mit 
der RRT, ob bestimmte Verhaltensmuster (in den Bereichen Sexuali- 
tät und Kriminalität) einer Guttmann-Skala genügen. KIM/FLUECK 
(1978) ermittelten in einer kleineren Anwendung der RRT den Um- 
fang der Inanspruchnahme bestimmter Sozialleistungen. 


Die Häufigkeit und Intensität von Ladendiebstahl untersuchten 
REINMUTH/GEURTS (1975) im Einkaufszentrum Ala Moana in Honolulu 


3) 


1) In einer Erhebung 1976, für die jedoch noch keine ausführli- 
chen Ergebnisse zugänglich sind, wurden die beiden Zusatzfra- 
gen geändert, wodurch sich die noch immer beträchtlichen 
Differenzen der beiden Unterstichproben verringerten. Vgl. 
SHIMIZU (1979, S.488f.). 


2) SHIMIZU/BONHAM (1978, S.39). 


3) GEURTS et al. (1975) berichten über eine ganz ähnlich auf- 
gebaute Studie, ohne jedoch die quantitativen Ergebnisse 
ausführlich darzustellen. 
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mittels des - nicht optimierten - SIMMONS-II-Modells (P. = 0,75, 
P, = 0,25). 

In einer ersten Stichprobe (n, = 138, n, = 46) wurde nach Laden- 
diebstahl in den letzten 12 Monaten gefragt; die nicht sensitive 
Zusatzfrage bezog sich auf den Einkauf in Ala Moana in der letz- 
ten Woche. In der zweiten Stichprobe (n, = 126, n, = 42) wurde 
nach der Zahl der Ladendiebstähle in den letzten 12 Monaten ge- 
fragt; die Zusatzfrage bezog sich auf die Zahl der Einkäufe in 
Ala Moana im letzten Monat. Die Ergebnisse sind in Übersicht 7.12 


zusammengestellt. N 


Übersicht 7.12: Ergebnisse der Studie von REINMUTH/GEURTS 
(1975). Ladendiebstahl in Honolulu. 


Qualitatives Merkmal Quantitatives Merk- 
mal 
Ladendiebstahl in den Anzahl der Laden- 
letzten 12 Monaten diebstähle in den 
letzten 12 Monaten 


Stichprobe 1 Stichprobe 2 Stichprobe 


Mittelwert In. = 0,1957 tT. = 0,1786 = 1,7142 


1 2 


(Standard- (0,0608) (0,0730) (0,5758) 


abweichung) 


95 %-Kon- 
fidenz- 0,0756- 0,0355- 


intervall 0,3157 0,3217 0,5642 - 2,8642 


Quelle: REINMUTH/GEURTS (1975, S.406) und eigene 


Berechnung nach diesen Daten 


1) REINMUTH/GEURTS (1975, S.405£.), schätzen darüber hinaus 
die Anzahl der Ladendiebstähle je Ladendieb und ermitteln 
hierfür Standardfehler und Konfidenzintervalle. 
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Durch die recht kleinen Stichprobenumfänge und die Anwendung der 
nicht optimierten Form des Modells sind die Konfidenzintervalle 
aufgrund der Schätzungen relativ groß. Vergleicht man die Ergeb- 
nisse 1 und 2 bez. des qualitativen Merkmals, so fällt die weit- 
gehende Übereinstimmung der Schätzungen auf. Die Autoren der Stu- 
die machen jedoch ihrerseits keinerlei Aussage über die Plausi- 


bilität der Ergebnisse. 


MADIGAN et al. (1976) untersuchten mit dem SIMMONS-I-Modell das 
Ausmaß (im Interview bei direkter Frage) bewußt verheimlichter 
Todesfälle in einer philippinischen Provinz. Nicht sensitives 
Zusatzmerkmal war die Geburt der Mutter der Befragten im April. 
Zur Randomisierung wurde eine Münze verwandt (P = 1/2). Es wurden 
jeweils ungefähr 2000 Haushalte in ländlichen und städtischen 
Gegenden befragt, nur 1,3 % der Befragten verweigerten die Ant- 
wort. Die Ergebnisse der Studie sind in der Übersicht 7.13 zusam- 
mengestellt. 


Übersicht 7.13: Ergebnisse der Studie von MADIGAN 
et al. (1976) 


Anteile (in %) der Haushalte mit Todes- 
fällen im Jahre 1973 in der Misamis 
Oriental Province / Philippinen; 

in Kla~mern sind die Standardfehler an- 
gegeben. 


Städt. Gebiet Ländl. Gebiet 


Absichtliche 
Verheimlichung 
eines Todes- 
falls 


Auftreten eines 
Todesfalls 


Keine offizielle 
Meldung eines 
Todesfalls 


Quelle: MADIGAN et al. (1976, S.299, 302, 303). 
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Es wurden also etwa 50 % der Todesfälle - so die Schätzungen - 
verheimlicht. Die Autoren benannten als Gründe religiöse Motive, 
Furcht vor behördlichen Untersuchungen und wirtschaftliche Be- 
weggründe. Die aufgrund dieser Ergebnisse korrigierten Sterbe- 


raten erscheinen sehr plausibel. 


Die beiden letzten zu erwähnenden RRT-Anwendungsstudien befassen 
sich mit der Verkehrsunfallforschung. HOCHBERG et al. (1976) be- 
richten über recht schlechteErfahrungen aus Pilot-Studien betr. 
das Tragen von Sicherheitsgurten; die schlechten Ergebnisse wer- 
den insbesondere auf die fehlende Sensitivität des untersuchten 
Merkmals als auch auf Schwierigkeiten, die RRT bei schriftlichen 
Befragungen anzuwenden, zurückgeführt. In einer kleinen Studie 
wendeten FOLSOM et al. (1973) erstmals das FOLSOM-Modell zur Er- 
fassung des Ausmaßes von Trunkenheit am Steuer bei Verkehrsunfäl- 
len an. In dieser Studie differierten - wie bei SHIMIZU/BONHAM 
(1978) - die Schätzwerte aus den beiden Unterstichproben sehr 
stark, was auf MeBfehler hindeutet, die jedoch von den Autoren 


nicht kommentiert werden. 


- 243 = 


7.3 AUSWERTUNG DER ANWENDUNGSSTUDIEN 


Versucht man die unterschiedlichen Studien, die hier in aller 
Kürze referiert wurden, zu werten, so ergibt sich kein einheit- 
liches Bild. Den in der Mehrzahl positiven Erfahrungen mit der 
RRT stehen auch einige gewichtige negative gegenüber. Es er- 
scheint daher notwendig, auf einige Punkte hinzuweisen, die für 
eine erfolgreiche Anwendung der RRT gegeben sein müssen. Voraus- 


setzung für eine erfolgreiche Anwendung der RRT sind 


- Sensitivität der untersuchten Merkmale und nicht zu kleine 
Stichprobenumfänge. 

- Einwandfreies technisches Funktionieren der Randomisierung. 

- Kooperationsbereitschaft der Befragten. 

- Geeignete Wahl der Modell-Parameter. 


Unter dem Gesichtspunkt der Effizienz - nicht des Schutzes von 
Einzeldaten überhaupt - ist die RRT nur dann anzuwenden, wenn die 
Antwortbereitschaft bei der direkten Befragung stark beeinträch- 
tigt ist - das Merkmal also sensitiv ist - und der Stichproben- 
umfang so groß ist, daß die Verringerung des Bias nicht durch 

die zusätzliche Antwortvarianz kompensiert wird. Die RRT muß da- 
rüber hinaus technisch einwandfrei funktionieren, d.h., die Ran- 
domisierung muß auch tatsächlich die angenommene Zufallsvariable 

Z generieren. Die Erfahrungen scheinen nicht unbedingt für Karten- 
spiele zu sprechen, deren Zusammensetzung schwer überwachbar ist, 


eher für die verschiedenen HOPKINS-Urnen oder Münzen. 


Die entscheidende Voraussetzung für die RRT ist jedoch die Koopera- 
tionsbereitschaft der Befragten. Wird das Merkmal als nicht sen- 
sitiv empfunden und besteht kein besonderes Datenschutzbedürfnis, 
so wird man dem Befragten den zusätzlichen Aufwand der RRT kaum 
verständlich machen können. Bei sensitiven Merkmalen muß dem Be- 
fragten glaubhaft gemacht werden können, daß die RRT wirklich 
Vertraulichkeit der Daten erzeugt; hierzu sind ausführliche Er- 
läuterungen sorgfältig geschulter Interviewer notwendig. Sie müs- 


sen darüber hinaus deutlich machen, daß es trotz der scheinbaren 
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Willkürlichkeit des 'RRT-Spiels' darauf ankommt, die gestellten 


Fragen wahrheitsgemäß zu beantworten. 


Sind diese Voraussetzungen gegeben, dann lassen sich mit der RRT - 
wie insbesondere einige der Validierungs- und Vergleichsstudien 


zeigen - eindrucksvolle Ergebnisse erzielen. 


Betrachtet man die in der Praxis verwendeten Modelle, so fällt 
das überwiegen der Unrelated-Question-Modelle auf. Das WARNER-Mo- 
dell erscheint wegen seiner geringen Effizienz nicht sinnvoll 
anzuwenden zu sein; hingegen stellen die Multiple-Trial-Versio- 
nen - insbesondere die hypergeometrische Version - erwägenswer- 
te und erfolgreich angewandte Alternativen dar. Das Contaminat- 
ion-Modell hat sich wegen der Aufforderungen, einmal die Wahr- 
heit zu sagen, im anderen Fall nicht, als für die Befragten zu 


verwirrend erwiesen. 


Für das Unrelated-Question-Modell schließlich spricht neben sei- 
ner relativ hohen Effizienz und Flexibilität die Möglichkeit, 
nominal, ordinal und metrisch skalierte Merkmale zu erheben. Die 
Anwendung des Ein-Stichproben-Modells ist trotz seiner hohen 
theoretischen Effizienz nicht unproblematisch. Bei bekanntem d 
sollte die Zusatzfrage nicht zu trivial gewählt sein, um die 
Glaubwürdigkeit der Befragung nicht zu gefährden. Diese Gefahr 
besteht auch beim Modell mit vorgegebenen Antworten, wo die Auf- 
forderungen einfach 'ja' oder 'nein' zu antworten, die Notwendig- 
keit wahrheitsgemäß zu antworten, unbedeutend erscheinen lassen 
kann. 


Das Zwei-Stichproben-Modell bietet sich innerhalb eines Frage- 
bogens mit mehreren direkten Fragen an. Als Zusatzfragen können 
dann auch Merkmale von tatsächlichem Interesse erhoben werden; 
diese sollten - wie alle anderen Fragen auch - sehr sorgfältig 
formuliert werden. Die Anwendungsstudien zeigen eine häufige 
Verwendung des Zwei-Stichproben-Modells (mit einem Zusatzmerk- 
mal) mit P, = 1-P,; dieses Modeil ist wegen seiner geringeren 
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Effizienz abzulehnen. Das nicht sensitive Zusatzmerkmal sollte 
immer direkt erhoben werden. Empfehlenswert erscheint ein ver- 
schränktes Modell, das FOLSOM-Modell, das mit zwei direkt er- 
fragten Zusatzmerkmalen arbeitet. Es bietet neben der erhöhten 
Effizienz die Möglichkeit, anhand des Vergleichs der beiden 
Schätzungen T(1) und 7(2) aus den beiden Unterstichproben Hin- 


weise auf eventuelle Meßfehler zu erhalten. 
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